百度新闻搜索结果页的采集

zoukankan html css js c++ java

百度新闻搜索结果页的采集

采集需求示例说明：具体要求如下

采集页面：http://news.baidu.com/ns?kw=& ... p;word=%C0%ED%B2%C6

http://news.baidu.com/ns?kw=&sc=news&cl=2&tn=news&ct=0&rn=20&lm=&ie=&rs2=&myselectvalue=&f=&pv=&z=&from=news&word=%C0%ED%B2%C6

需要的就是这个页面的内容。
从<div id="r">开始的20条新闻信息。
信息后面的（“8条相同新闻”）这里的文字和链接不要
百度搜索结果每页标题都是相同，需要解决（我用的是dede，相同标题不能入库）

再说明一下，需要的就是这个页面的内容。再进去的站的内容不需要。应该明白？

这个是一个网友发给我的采集说明；
针对百度搜索结果的采集，分为3种情况：
1、直接采集百度搜索结果页面的内容，得到信息的标题，链接，信息的概述；
2、采集百度搜索结果页面的内容，得到网站名、网址，并排出重复；
3、采集百度搜索结果页面，得到对应信息链接，再采集信息链接得到最终结果；

本例中说明的是第一种情况；
一、先说说百度搜索结果的翻页参数；

http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=newsA&ie=gb2312&ct=0&word=%C0%ED%B2%C6&pn=(*)&cl=2

pn是页码的标记，但是和其他的翻页不一样的是，他并不是按照1、2、3、4往上排的，而是0、20、40、60往上加的。
截图说明：

2011-8-13 13:48:18 上传
下载附件 (49.04 KB)

二、采集信息标题：
正则说明：

<td class="text"><a href="http://(*)target=_blank>[参数]

2011-8-13 13:48:15 上传
下载附件 (66.75 KB)

三、采集信息内容：
正则说明：[参数]et=_blank>百度快照</a>

2011-8-13 13:48:23 上传
下载附件 (67.76 KB)

四、采集信息来源：
正则说明：[参数]

2011-8-13 13:48:26 上传
下载附件 (64.72 KB)

五、采集信息出处：
正则说明：(*) [参数]

2011-8-13 13:48:20 上传
下载附件 (65 KB)

六、采集信息时间：
正则说明：<td class="text"><a href="[参数]"

2011-8-13 13:48:24 上传
下载附件 (65.21 KB)

以上采集均使用了页面循环采集的勾选项；
用火车头的采集结果效果预览请看第二楼的回帖；

如果要下载写好的规则文件请访问：http://www.dataindex.org/dicontent-834-1-1.html
[采集规则] 百度搜索结果页系列采集规则

本人博客的文章大部分来自网络转载，因为时间的关系，没有写明转载出处和作者。所以在些郑重的说明：文章只限交流，版权归作者。谢谢

查看全文

相关阅读:
linux下一步一步安装禅道项目管理工具
 tfw格式图解
 yaourt: a pacman frontend(pacman前端，翻译)
OpenGL官方教程——着色器语言概述
 [翻译]opengl扩展教程2
[翻译]opengl扩展教程1
Git-it字典翻译
 解决 QtCreator 3.5(4.0)无法输入中文的问题
 Valgrind 3.11.0编译安装
 ubuntu linux 下wine的使用

原文地址：https://www.cnblogs.com/wzg0319/p/2159883.html