使用Python采集游记 - 走看看

zoukankan html css js c++ java

使用Python采集游记

本次要采集的是蚂蜂窝法国游记下面的全部3000篇游记http://www.mafengwo.cn/travel-scenic-spot/mafengwo/10171.html

首先从需要采集的网页来看，URL并不是有规律的，这时候需要得到一个URL目录就使用Fiddle抓包进行分析，

在切换页面的时候可以看到获取当前页码的所有游记（一页十条）的列表如下所示：

通过遍历data里面的page参数发送POST请求，就可以得到所有的目录页面，然后通过正则提取出待爬取的URL。

最后遍历待爬取的URL列表就可以获取游记的内容了。

查看全文

相关阅读:
使用IDEA新建Maven项目没有完整的项目结构（src文件夹等等）
MyBatis:SQL语句中的foreach标签的详细介绍
 嵌入式tomcat例子
 springboot项目创建(myeclipse2017)
使用javafxpackager将java项目打包成exe
Spring Boot异常
 myeclipse设置新建菜单file-new选项
 myeclilpse打开文件所在位置的图标消失后的找回方法
 mybatis使用接口方式报错
 SSH中的Dao类继承HibernateDaoSupport后出现异常

原文地址：https://www.cnblogs.com/qqzj/p/7726653.html

Copyright © 2011-2022 走看看