zoukankan
html css js c++ java
爬虫基础总结2
headers
形式 字典
User-Agent,Cookies
使用User-Agent能够模拟浏览器
如果因为参数问题爬取不到数据,添加更多参数
params
形式 字典
键是=前面的内容,值是=后面的内容
字符串格式化:'wenshao{}'.format('dashuabi')
post
发送post请求 requests.post(url, data=data)
data形式,字典
proxies(代理)
形式 字典
键:协议
值:协议+ip+port
不是所有代理都支持https的请求和post请求
拨号方式获取的代理ip质量最高
模拟登录
cookies和session的区别
1.cookie储存在浏览器上 2.session储存在服务器上
2.cookie不安全,session更安全
3.session占用服务器性能
4.cookie存储的数据有上限,session没有上限
模拟登录的三种方式
使用session
1.实例化一个session session=requests.session()
2.使用session发送post请求
此时session保存的有对方服务器设置的cookie
3.再使用session请求登录之后才能访问的页面 session.get(url)
将cookie字符串放在headers中
Cookie过期时间很久
cookie过期之前能获取全部的数据
配合其他的程序一起使用,边获取cookie边获取数据
把cookie组成字典,放在请求方法中
字典推导式 {i['name']: i['value'] for i in Cookies }
查看全文
相关阅读:
新浪微博爬虫项目
time
黑客增长
python2 3 区别
爬虫高性能相关
登录_爬取并筛选拉钩网职位信息_自动提交简历
破解极验验证码
tesseract-ocr 传统验证码识别
刻意练习
计算学员的考试总成绩以及平均成绩
原文地址:https://www.cnblogs.com/wsilj/p/12736159.html
最新文章
【SQL语句】update ... ... from ......
【Telerik】实现列表单元格中添加复选框,进行状态(是、否)判断
【Silverlight】打开Silverlight程序报错,"未找到导入的项目......请确认<Import>声明中的路径正确,且磁盘上存在该文件"
【Telerik】<telerik:RadComboBox>导出列表数据
【Telerik】弹出对话框RadWindow,确认删除信息
【Telerik】查询控件<telerik:RadMaskedTextBox>的使用
【WPF】WPF中的List<T>和ObservableCollection<T>
【PostgreSQL】PostgreSQL添加新服务器连接时,报错“Server doesn't listen ”,已解决。
流动
优先级排序与需求拆分粒度
热门文章
什么是BDD?
[转] 基于可工作性的一个研究方法
A/B宣言
看板方法反模式之二:用看板当烟雾弹
看板方法反模式之一:看板方法是方法论
绘制你的积极性曲线
重要的是瓶颈所需时间
从三大杠杆看软件企业的持续发展之道
极验验证码
拉勾项目
Copyright © 2011-2022 走看看