【原创】爬虫反爬基础常见类型总结 - 走看看

zoukankan html css js c++ java

【原创】爬虫反爬基础常见类型总结
1.浏览器伪装

格式：
'User-Agent':'自己抓包'
2.访问地址伪装

格式：
'reffer':'自己抓包'
3.ip地址伪装

格式：
免费版： proxies={'https':'ip:port'}
收费版： proxies={'https':'http:user:password@ip:port'}
4.伪装访问速率

格式：
import time,random headers={xxx} for i in range(10): response = xxx #模拟请求url time.sleep(random.uniform(1.1,5.4)) #重点时间随机
5.伪装用户真实信息

格式：
cookies='自己抓包'
cookies升级：js、js混淆，已经超出普通人能力

6.字体反爬

常见某点评网，只能靠js，同cookies一样困难

7.Selenium防检测

这个需要加类似插件参数

8.网页禁止调试

F12不起作用，或者调试警告弹窗，这种直接不让你看数据

9.Ajax异步加载

selenium可以做，但是效率不高。调试原网页没数据，这种考虑js生成，或者有专门接口

10.其他反爬

动态验证码，封ip，封账号等
------------------------------- ********厚德达理，励志勤工******** -------------------------------
查看全文

相关阅读:
Azure虚拟机部署Linux+PHP+Swoole
[经验分享]OBS 如何实现多路推流
 SQL Server 中的登陆用户如何只看到指定的数据库
 NCF 数据库错位导致站点访问不了
 AutoIT+Selenium的使用
 2019年入职体检那些事
 Jmeter 针对工具类的每个方法进行测试
 Effective Jmeter：记录一些场景下有效的解决方案
 通过 Test Fragment + Module Controller 封装登录接口
 在setUp线程组中初始化全局工具类

原文地址：https://www.cnblogs.com/hightech/p/14776349.html

Copyright © 2011-2022 走看看