zoukankan      html  css  js  c++  java
  • 针对模板页面的数据爬虫实现方法探讨

      最近研究了一下爬虫的相关内容,在实际爬取过程中,遇到了一类比较棘手的页面样式。

      首先,该爬取对象是采用模板页面,没有提供api接口,所以无法直接访问。

      其次,只需要爬取页面中某一标签的数据,例如地址等,但是该页面采取脚本写入的方式来添加数据,即原始下载的页面中直接写的是函数,需要JS执行后才能显示正常数据。

      例如:

      

    <script>
    <!--
    function test(){
    var a,b,c
    a='\u4e1c\u57ce'
    b='\u88571'
    a+='\u533a\u4e1c\u957f'
    b+='6\u53f7'
    c='\u5b89'
    document.write(a+c+b)
    }
    test()
    //-->
    </script>

      由于标签中的数据需要执行结果,这样,通过正则的数据获取无法得到真正需要的数据。

      经过研究,我们最后采用了脚本注入的方式来进行数据的爬取,方法虽然有点慢和繁琐,但是可以满足当前的数据获取需求。

      步骤:

      1.建立后台数据爬去页面,主要通过HTTP爬去模板页面,然后进行脚本注入,爬去页面执行后的

  • 相关阅读:
    Change MYSQL data directory
    Docker distrubution in django
    mongo&node
    理解Docker单机容器网络
    auto dock
    django_restframework_angularjs
    Javascript异步编程的4种方法
    DockerProblem
    Javascript面向对象编程
    scrapy post请求 multipart/form-data
  • 原文地址:https://www.cnblogs.com/yuxichina/p/2965677.html
Copyright © 2011-2022 走看看