针对模板页面的数据爬虫实现方法探讨 - 走看看

zoukankan html css js c++ java

针对模板页面的数据爬虫实现方法探讨
　　最近研究了一下爬虫的相关内容，在实际爬取过程中，遇到了一类比较棘手的页面样式。

　　首先，该爬取对象是采用模板页面，没有提供api接口，所以无法直接访问。

　　其次，只需要爬取页面中某一标签的数据，例如地址等，但是该页面采取脚本写入的方式来添加数据，即原始下载的页面中直接写的是函数，需要JS执行后才能显示正常数据。

　　例如：

　　
<script>  </script>
　　由于标签中的数据需要执行结果，这样，通过正则的数据获取无法得到真正需要的数据。

　　经过研究，我们最后采用了脚本注入的方式来进行数据的爬取，方法虽然有点慢和繁琐，但是可以满足当前的数据获取需求。

　　步骤：

　　1.建立后台数据爬去页面，主要通过HTTP爬去模板页面，然后进行脚本注入，爬去页面执行后的
查看全文

相关阅读:
最小生成树示例程序_Prim算法
 邻接表示例程序
 拓扑排序示例程序
 hdu1754 I Hate It && hdu1166 敌兵布阵 ——线段树复习
 2013年4月26日晴
 Snakes & Ladders ——BFS入门题
 zoj1203 Swordfish ——最小生成树入门题_Kruscal算法
 poj3087 Shuffle'm Up ——水题
 poj1002 4873279 ——水题
 2013年4月21日阴

原文地址：https://www.cnblogs.com/yuxichina/p/2965677.html

Copyright © 2011-2022 走看看