【selenium】headless模式下遇到403反爬虫校验(Human verification)

zoukankan html css js c++ java

【selenium】headless模式下遇到403反爬虫校验(Human verification)
headless模式下遇到 403 反爬虫校验 (Human verification)

被反爬虫校验困扰了很久，今天终于解决，在此记录一下。

问题描述

工作需要爬取一些文章，本来想使用 go 简单写一下，没想到遇到了反爬虫的人机校验，页面被拦截，返回 403 ，于是后面遇到了一个又一个的问题。
期间尝试了 go 的 xpath，colly，以及 chromedp，均没有成功。
后来又尝试 python 的 scrapy ，最后是在尝试 selenium 关闭 headless 时，成功避开了 Human verification 。但是开启 headless 还是会出现 403 。

后来，在本地可以正常运行，但是部署到 linux 系统下，又冒出了新的问题，chromedriver 调用 chrome 失败，因为 chrome 在启动期间崩溃了。
在 stackoverflow 上查到是的解决方式一一尝试后均未解决，最后发现都需要设置一下 options.add_argument('--headless') ，
也就是说，最后还是要把 headless 启动，但是启动 headless 又会遇到 Human verification 。

兜兜转转一圈，最后还是要解决 403 的问题。

解决方式

因为在尝试 scrap y时，scrapy 是配置了 User-Agent 的，后来没有成功，所以后来在尝试 selenium 时，把这个注意的点忽略了。
我在开启 headless 后，同样也关闭了 sandbox ，手动配置了一下 User-Agent 就解决了。
下面是我的代码
```
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
options.add_argument('--no-sandbox')
options.add_argument('lang=zh-CN.UTF-8')
options.add_argument(f'user-agent={settings.USER_AGENT}')
prefs = {
    'profile.managed_default_content_settings.images': 2,
    'profile.managed_default_content_settings.notifications': 2,
    'intl.accept_languages': 'zh-CN,zh;q=0.9,en;q=0.5',
}
options.add_experimental_option('prefs', prefs)
driver = webdriver.Chrome(chrome_options=options)
```
如果这种方式还是没有解决，还有一种方式可以尝试，那就是使用 mitmproxy 或者 charles ，在 selenium 请求时加上一层代理，我在本地可以调通，但是我还没有在 linux 上尝试。

推荐阅读

How does reCAPTCHA 3 know I'm using Selenium/chromedriver?

Way to change Google Chrome user agent in Selenium?
查看全文

相关阅读:
DMA+USART重定义打印接口
 FTP初探
 ESP8266-lua开发
 GPIO常见问题分析
 新装系统简介
 java四个元注解的作用
 Linux常用操作指令
 @Autowired 与@Resource的区别（详细）
内存溢出的几种原因和解决办法
 什么是NIO2

原文地址：https://www.cnblogs.com/embraceU/p/14783247.html

【selenium】headless模式下遇到403反爬虫校验(Human verification)

headless模式下遇到 403 反爬虫校验 (Human verification)

问题描述

解决方式

推荐阅读