验证码识别
反爬机制:验证码 识别验证码图片中的数据用于模拟登录相关之间真的操作
识别验证码的操作:
- 人工肉眼的识别
- 第三方自动识别
- 云打码
模拟登录:
- 爬取基于某些基于用户的用户信息.
需求:对人人网进行模拟登录
- 点击登录按钮之后会发起一个post请求
- post请求中会携带登陆之前录入的相关的登录信息(用户名,密码,验证码......)
- 验证码:每次请求都会变化
需求:
爬取当前用户的相关用户信息(个人主页中相关的用户信息)
http/https协议特征:无状态
没有请求到对应数据的原因:
发起的第二次基于个人
cookie:用来让服务器端记录客户端的相关状态
- 手动处理:通过抓包工具获取cookie值,将该值封装到headers中。(不建议)
- 自动处理:
- cookie值的来源是哪里?
- 模拟登录post请求后,由服务器端创建.
- session会话对象:
- 作用:
- 可以进行请求的发送。
- 如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中。
- 创建一个session对象,session= requests.Session()
- 使用session对象进行模拟登录post请求的发送(cookie就会被存储在session中)
- session对象对个人主页对应的get请求进行发送(携带了cookie)
代理:
破解封IP这种反爬机制
什么是代理:
- 代理服务器
代理的作用:
- 可以突破自身IP访问的限制
- 可以隐藏自身IP被攻击、真实IP
代理相关的网站:
- 快代理
- 西祠代理
- www.goubanja.com