爬虫基本原理
1. request请求方式: 主要有GET; POST;另外还有HEAD, PUT,DELETE,OPTIONS等;
请求URL:又称资源定位符,类似网页文档,图片,视频都可以用URL唯一来确定;
请求头:包含USER-AGENT,HOST,COOKIES等信息
请求体: 请求时额外携带的数据
2. response: 先判断状态码,然后拿出响应体
响应状态STATUS_CODE: 有多重响应状态码
响应头HEADERS:如内同类型,内容长度,服务器信息,设置cookies等:如内同类型,内容长度,服务器信息,设置cookies等
响应体:最主要的部分,包含请求资源的内容,如网页,图片,二进制数据等。
3. 爬虫抓取的数据:
网页文本: 如HTML,JSON格式文本等
图片或视频信息:多为二进制流: response.content,然后写入:
with open('保存路径/保存文件名','wb') as f
f.write(response.content)
f.close()
4. 解析方式:
直接处理:适合比较的内同
json解析:
正则表达式:
beautifulSoup:
PyQuery:
XPath:
5.解决JavaScript渲染的问题:
分析ajax请求
使用Selenium、WebDriver驱动浏览器:其实是做自动化的工作,模拟浏览器的请求
Splash:模拟js的渲染
PyV8.Ghost.py等
6. 保存数据:
文本: 纯文本,Json,Xml等。
关系型数据库: MySQL, Oracle, SQL Server
非关系型数据库: MongoDB,redis等
二进制文件: 如图片,视频,音频等直接报春成特定格式即可。