zoukankan      html  css  js  c++  java
  • 关于python爬取异步ajax数据的一些见解

    我们在利用python进行爬取数据的时候,一定会遇到这样的情况,在浏览器中打开能开到所有数据,但是利用requests去爬取源码得到的却是没有数据的页面框架。

    出现这样情况,是因为别人网页使用了ajax异步加载,你的requests得到的只是页面框架而已。

    遇到这样的情况有几种方法可以解决:

      1、分析(f12)network中的响应,从而获得ajax的请求接口,在通过这些接口去获得数据。

      2、使用selenium这个网页自动化测试工具,去获得源码。因为这个工具是等到页面加载完成采取获取的整个页面的代码,所以理论上是可以获得页面完整数据的。

    我自己测试过一个页面,也是获取了完整数据的。有需要的朋友可以去自己测试。

    下面,我们针对第二种方法,做一个实验:本地新建一个json.html前端文件和json.php后端脚本。web服务器我们使用apache(集成环境xampp)。

    json.php

    <?php
    
        header('Access-Control-Allow-Origin:*'); //代表允许任何网址请求
    
        $arr = array(
            'testarr' => array(
                'name' => 'panchao',
                'age' => 18,
                'tel' => '15928838350',
                'addr' => 'test'
            )
        );
        
        echo json_encode($arr);
    
    ?>

    json.html

    <div id='test'>
    test
    </div>
    <script src="https://cdn.bootcss.com/jquery/3.4.1/jquery.min.js"></script>
    <script>
        function easyAjax(requestUrl){
            $.ajax({
                url: requestUrl,
                type: "GET",
                dataType: "json", 
                success: function(msg){
                var a = "<span>"+msg.testarr.name+"</span>";
                //动态的向页面中加入html元素
                $("#test").append(a);
                },
                error: function(XMLHttpRequest, textStatus, errorThrown) {
                alert(XMLHttpRequest.status);
                alert(XMLHttpRequest.readyState);
                alert(textStatus);
                }
            });
    
        }
        easyAjax("http://localhost:8080/json/json.php")
    </script>

    然后我们分别用python的request和selenium(webdriver.Chrome)来做实验。

    request

    import requests
    r = requests.get("http://localhost:8080/json/json.html")
    r.encoding = 'utf-8'
    print(r.text)

    selenium(webdriver.Chrome)至于selenium怎么使用我前面的文章中有提到

    from selenium import webdriver
    from selenium.webdriver.chrome.options import Options
    chrome_options = Options()
    chrome_options.add_argument("--headless")
    driver = webdriver.Chrome(executable_path=(r'C:Users923AppDataLocalGoogleChromeApplicationchromedriver.exe'), options=chrome_options)
    base_url = "http://localhost:8080/json/json.html"
    driver.get(base_url)
    print(driver.page_source)

    我们来看结果:

    第一种,利用python request请求的方法得到的页面数据为:

    <div id='test'>
    test
    </div>
    <script src="https://cdn.bootcss.com/jquery/3.4.1/jquery.min.js"></script>
    <script>
        function easyAjax(requestUrl){
        $.ajax({
    
        url: requestUrl,
        type: "GET",
        //async : false,
        dataType: "json", 
    
        success: function(msg){
    
        var a = "<span>"+msg.testarr.name+"</span>";
    
        
        console.log(msg);
        $("#test").append(a);
        },
        error: function(XMLHttpRequest, textStatus, errorThrown) {
        alert(XMLHttpRequest.status);
        alert(XMLHttpRequest.readyState);
        alert(textStatus);
        }
        });
    
        }
        easyAjax("http://localhost:8080/json/json.php")
    </script>

     第二种,利用selenium(webdriver.Chrome)方法得到的页面数据为:

    <html xmlns="http://www.w3.org/1999/xhtml"><head></head><body><div id="test">
    test
    <span>panchao</span></div>
    <script src="https://cdn.bootcss.com/jquery/3.4.1/jquery.min.js"></script>
    <script>
        function easyAjax(requestUrl){
        $.ajax({
    
        url: requestUrl,
        type: "GET",
        //async : false,
        dataType: "json", 
    
        success: function(msg){
    
        var a = "&lt;span&gt;"+msg.testarr.name+"&lt;/span&gt;";
    
        
        console.log(msg);
        $("#test").append(a);
        },
        error: function(XMLHttpRequest, textStatus, errorThrown) {
        alert(XMLHttpRequest.status);
        alert(XMLHttpRequest.readyState);
        alert(textStatus);
        }
        });
    
        }
        easyAjax("http://localhost:8080/json/json.php")
    </script></body></html>

    我们可以看到以上两种结果,最主要的差异就是第二种方法(selenium(webdriver.Chrome))得到的web代码中包含了ajax异步加载的数据。

    <div id="test">
    test
    <span>panchao</span></div>

    而第一种方法(python request)得到的web代码中没有包含ajax异步加载的数据。

    <div id='test'>
    test
    </div>

    根据以上结论,证明利用selenium(webdriver.Chrome)来获取页面数据,是可以获取到javascript脚本加载的数据的。

    不知道大家有没有注意到利用selenium(webdriver.Chrome)来获取页面数据的方法还自动的给我们不全了html的标签

     

    希望可以帮助到有需要的人。

  • 相关阅读:
    Azure HDInsight 现已在中国正式发布
    避免由于Windows Update自动安装安全补丁导致VM意外重启
    如何修复在Microsoft Azure中“虚拟机防火墙打开,关闭RDP的连接端口”问题
    关于Azure Auto Scale的高级属性配置
    在Azure中使用Load Runner测试TCP最大并发连接数
    Windows Azure案例分析: 选择虚拟机或云服务?
    Windows Server基础架构云参考架构:硬件之上的设计
    浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案
    在Windows Azure公有云环境部署企业应用
    如何在后台运行_Linux_命令并且将进程脱离终端
  • 原文地址:https://www.cnblogs.com/573734817pc/p/11187308.html
Copyright © 2011-2022 走看看