爬虫篇 2017/12/22 暖冬 - 走看看

zoukankan html css js c++ java

爬虫篇 2017/12/22 暖冬

爬虫常用库：请求库、解析库、存储库

urllib、re （python内置库）

requests：请求库

selenium：驱动浏览器、自动化测试

chromedriver：chrome浏览器驱动

phantomjs：不会弹出浏览器，无界面浏览器

lxml：提供。。。解析方式

beautifulsoup：网页解析库 bs4（该模块名称）

pyquery：网页解析库，更加方便

pymysql：连接MySQL数据库的库

pymongo：操作mongodb数据库的库

redis：非关系型数据库，用于分布式爬虫，效率高

flask：代理设置

django：外部服务器框架，提供一个完整的后台管理，模块接口，引擎，用于分布式爬虫的维护

基本流程：

1、发起请求

请求方式（get、post）请求url URL：统一资源定位符请求头请求体

2、获取相应内容

响应状态、响应头、响应体：最主要部分，包含请求源代码

3、解析内容

解析方式： JSon解析正则表达式 beautifulsoup：好用 pyquery xpath

解决JavaScript渲染的问题：分析ajax请求 selenium/webdriver splash pyv8、ghost.py

4、保存数据：

文本：纯文字、json、xml

关系型数据库：msql、Oracle等具有结构化表结构形式存储

非关系型数据库：MongoDB、Redis等key-value形式存储格式

二进制文件：图片、音频、视频等直接保存成特定格式

查看全文

相关阅读:
操作系统的用户态和内核态
 C++程序编译过程
 大爽Python入门练习题 15 最长字符串
 大爽Python入门练习题 25 二维列表行列与序数关系
 大爽Python入门练习题 16 三个数找中间值
 大爽Python入门练习题 17 最大差值
 大爽Python入门练习题 19 猜结果
 大爽Python入门练习题 11 倒序生成列表
 大爽Python入门练习题 18 字母次数统计
 大爽Python入门练习题 110 猜函数

原文地址：https://www.cnblogs.com/bitou/p/8088062.html

Copyright © 2011-2022 走看看