网站爬虫不做过多介绍可参考博文:
https://blog.csdn.net/weixin_43636302/article/details/103830507
今天主要讲一下反反爬的思路。
博文的做法是通过post接口访问,但没有做反反爬处理
这个接口的时延很低但是会封ip,反爬措施做的很到位,别说是爬虫人手点快一点都会被封ip。
尝试过使用休息和代理ip池请求,效果不佳,由于客户需要数据只能采用“暴力模拟法”:
通过selenium+chrome+chromedriver模拟人点击过程,且强制休息等待时间。
经过测试还是能爬到可观的数据量的,但是长时间还是会"封页面"(和封ip不同,封ip会导致你在其他页面和浏览器都无法请求到数据)
目前已经获得2014--2018年纳税信用A级纳税人信息(股份有限公司)的所有信息 没有爬完 客户只需要这么多,后期考虑补充完整数据库。