zoukankan      html  css  js  c++  java
  • c#爬虫-selenium检测webdriver封爬虫的解决方法

    背景

    大家在使用Selenium + Chromedriver爬取网站信息的时候,以为这样就能做到不被网站的反爬虫机制发现。但是实际上很多参数和实际浏览器还是不一样的,只要网站进行判断处理,就能轻轻松松识别你是否使用了Selenium + Chromedriver模拟浏览器。其中

    window.navigator.webdriver

    就是很重要的一个。

    问题窥探

    正常浏览器打开是这样的

     模拟器打开是这样的 

    ChromeOptions options = null;
                IWebDriver driver = null;
                try
                {
                    options = new ChromeOptions();
                    options.AddArguments("--ignore-certificate-errors");
                    options.AddArguments("--ignore-ssl-errors");
    
                    // options.AddExcludedArgument("enable-automation");
                    //  options.AddAdditionalCapability("useAutomationExtension", false);
    
                    var listCookie = CookieHelp.GetCookie();
                    if (listCookie != null)
                    {
                        // options.AddArgument("headless");
                    }
    
                    // string ss = @"{ ""source"": ""Object.defineProperty(navigator, 'webdriver', { get: () => undefined})""}";
                    //   options.AddUserProfilePreference("Page.addScriptToEvaluateOnNewDocument", new ssss() { source = " Object.defineProperty(navigator, 'webdriver', {   get: () => undefined  }) " });
    
                    ChromeDriverService service = ChromeDriverService.CreateDefaultService(System.Environment.CurrentDirectory);
                    service.HideCommandPromptWindow = true;
                    driver = new ChromeDriver(service, options, TimeSpan.FromSeconds(120));
    
                    ////session.Page.AddScriptToEvaluateOnNewDocument(new OpenQA.Selenium.DevTools.Page.AddScriptToEvaluateOnNewDocumentCommandSettings()
                    ////{
                    ////    Source = @"Object.defineProperty(navigator, 'webdriver', { get: () => undefined })"
                    ////}
                    //// );

    所以,如果网站通过js代码获取这个参数,返回值为undefined说明是正常的浏览器,返回true说明用的是Selenium模拟浏览器。

    解决办法

    那么对于这种情况,在爬虫开发的过程中如何防止这个参数告诉网站你在模拟浏览器呢?执行对应的js,改掉它的值。

     IJavaScriptExecutor js = (IJavaScriptExecutor)driver;
      string returnjs = (string)js.ExecuteScript("Object.defineProperties(navigator, {webdriver:{get:()=>undefined}});");

    运行效果

     完美,达到预期效果。

  • 相关阅读:
    网站抓取
    Java经典类库-Guava中的函数式编程讲解
    更快的memcpy
    Jqgrid入门-使用模态对话框编辑表格数据(三)
    深入理解.NET程序的原理 谈一谈破解.NET软件的工具和方法
    jquery跨域请求数据
    C#WebBrowser控件使用教程与技巧收集
    memcached 命令操作详解
    C#中WindowsForm常见控件的运用
    多线程实践
  • 原文地址:https://www.cnblogs.com/lyl6796910/p/14275770.html
Copyright © 2011-2022 走看看