一、webmagic
二、python爬虫
三、原理
四、示例
五、其他
Python3网络爬虫(十一):爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)
六、常见反爬手段
1、禁用鼠标右键
解决方案:查看页面源码:在连接前加个view-source:。
view-source:https://www.dmzj.com/view/yaoshenji/41917.html
2、禁用F12
解决方案:鼠标移动到浏览器边框栏,再按F12
3、Header
3.1、Referer:来路
解决方案:按要求指定Referer
3.2、user-agent
3.3、cookie
4、同一ip访问频次限制
代理IP
七、工具
F12:浏览器开发者工具
you-get
FFmpeg:有非常强大的功能包括视频采集、视频格式转换、视频抓图、给视频加水印等功能。分段视频合成。
Beautiful Soup:py版html解析工具
jSoup:java版html解析工具
Selenium:自动化测试工具。它支持各种浏览器
Fiddler:一个http协议调试代理工具
Scrapy:框架