爬虫原理
模拟请求→拿到数据→根据数据不同的类型用不同的方式解析→存储
学习步骤
1、http协议
2、请求库:requests,(urlib3比较复杂,不建议)
requests请求库只能把页面内容下载本地以后,并不能执行js代码(浏览器可以)
需要分析目标站点策略
3、解析库:re,beautifulsoup,pyquery
4、存储库:文件,MySQL,Mongodb,Redis
5、性能相关:异步IO
6、框架:scrapy
Http协议的8种请求
常用:GET 向特定服务端获取数据,数据在url中传输。
常用:POST 向服务端提交数据,数据包含在请求体中,
其他请求方式:HEAD,PUT,DELETE,OPTIONS,TRACE,CONNECT
网页的加载过程是:
加载一个网页,通常都是先加载document文档,
在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求
请求头
User-Agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户 host cookies:cookie用来保存登录信息 一般做爬虫都会加上请求头
例如:
User-Agent
Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/56.0
Host 请求头指明了服务器的域名(对于虚拟主机来说),以及(可选的)服务器监听的TCP端口号。
HTTP Cookie(也叫Web cookie或者浏览器Cookie)是服务器发送到用户浏览器并保存在浏览器上的一块数据,它会在浏览器下一次发起请求时被携带并发送到服务器上。比较典型的,可以它用来确定两次请求是否来自于同一个浏览器,从而能够确认和保持用户的登录状态。Cookie使得基于无状态的HTTP协议记录稳定的状态信息成为了可能。
请求体
如果是get方式,请求体没有内容
如果是post方式,请求体是form data
ps:
1、登录窗口,文件上传等,信息都会被附加到请求体内
2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post
响应
#1、响应状态
200:代表成功
301:代表跳转
404:文件不存在
403:权限
502:服务器错误
#2、respone header
set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来
#3、preview就是网页源代码
最主要的部分,包含了请求资源的内容
如网页html,图片
二进制数据等
爬虫所需工具:
请求库:requests,selenium
解析库:正则,beautifulsoup,pyquery
存储库:文件,MySQL,Mongodb,Redis
requests模块
requests模块可以模拟浏览器的请求,比起urllib,requests模块的api更加便捷,本质就是封装了urllib3。
#注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求
#各种请求方式:常用的就是requests.get()和requests.post()
>>> import requests
>>> r = requests.get('https://api.github.com/events')
>>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})
>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
>>> r = requests.delete('http://httpbin.org/delete')
>>> r = requests.head('http://httpbin.org/get')
>>> r = requests.options('http://httpbin.org/get')
未完待续