selenium反反爬 - 走看看

zoukankan html css js c++ java

selenium反反爬
1. 反爬

有时候，我们利用 Selenium 自动化爬取某些网站时，极有可能会遭遇反爬。

实际上，我们使用默认的方式初始化 WebDriver 打开一个网站，下面这段 JS 代码永远为 true，而手动打开目标网站的话，则为：undefined

# 通过这段 JS 脚本区分是爬虫还是人工操作
window.navigator.webdriver
稍微有一点反爬经验的工程师利用上面的差别，很容易判断访问对象是否为一个爬虫，然后对其做反爬处理，返回一堆脏数据或各种验证码。

如果要实现后面的自动化操作，首先要解决的就是这个反爬的问题。

常见的反反爬方案包含：设置参数 excludeSwitches、mitmproxy 拦截过滤、cdp 命令，下面分别来说说。

2.设置参数 excludeSwitches

Chrome79 之前可以通过配置 ChromeOptions 驱动参数，来达到反反爬的目的。

只需要将参数打开，设置 excludeSwitches 值为 enable-automation 即可。
1 from selenium.webdriver import Chrome 2 from selenium.webdriver import ChromeOptions 3 4 option = ChromeOptions() 5 6 # 打开参数 7 option.add_experimental_option('excludeSwitches', ['enable-automation']) 8 9 driver = Chrome(options=option) 10 11 driver.implicitly_wait(10) 12 13 driver.get("http://www.google.com")
这个参数是实验性参数，所以右上角会提示：请停用开发者模式运行的扩展程序，不能点击停用。

这样，设置这个参数后：

window.navigator.webdriver 的值就变成 undefined 了。

3. mitproxy 拦截

众所周知，mitproxy 可以拦截到网络请求，做其他处理，这里只需要进行 JS 代码注入即可。

# 待执行的 JS 代码,修改 window.navigator.webdriver 的值
1 js_exec = 'Object.defineProperties(navigator,{webdriver:{get:() => false}});' 2 3 # 重写 response，截获网络请求，js注入 4 def response(slef,flow: mitmproxy.http.HTTPFlow): 5 if 'google' in flow.request.url: 6 flow.response.text = js_exec + flow.response.text
然后启动 mitmdump

# 启动mitmproxy
mitmdump -p 8888 -s 111.py
最后，配置 ChromeOptions 指向 mitmdump代码即可。

1 # 配置ChromeOptions 2 option.add_argument("--proxy-server=http://127.0.0.1:8888")
4. cdp 命令

cdp 全称是：Chrome Devtools-Protocol

通过 addScriptToEvaluateOnNewDocument() 方法可以在页面还未加载之前，运行一段脚本。

如此，我们只需要提前设置：

window.navigator.webdriver 的值为 undefined 即可。
1 from selenium.webdriver import Chrome 2 from selenium.webdriver import ChromeOptions 3 4 option = ChromeOptions() 5 6 # 打开参数 7 # option.add_argument("--proxy-server=http://127.0.0.1:8888") 8 # driver = Chrome(options=option) 9 10 driver = Chrome() 11 driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", { 12 "source": """ 13 Object.defineProperty(navigator, 'webdriver', { 14 get: () => undefined 15 }) 16 """ 17 }) 18 19 driver.implicitly_wait(10) 20 driver.get("http://www.google.com")
5. 其他

通过上面的 3 种方法可以很好的解决 Selenium 自动化被反爬的问题。

原文链接：https://blog.csdn.net/pythonauto/java/article/details/104744743
查看全文

相关阅读:
记一次ORACLE的UNDO表空间爆满分析过程
 ORACLE AWR报告数据的导入导出实践
 Linux 平台MySQL启动关闭方式总结
 ORACLE 查看RMAN的备份信息总结
 ORACLE AWR报告生成过程出现多个实例记录分析
 ORACLE 如何查看索引重建进度情况
 partproble在RHEL 6下无法更新分区信息
 Oracle行内链接不会引起USER_TABLES中CHAIN_CNT值变化
 Linux服务器宕机案例第二则
 ORA-00600: internal error code, arguments: [kcratr1_lastbwr], [], [], [], [], [], [], []

原文地址：https://www.cnblogs.com/zihkj/p/12583657.html