zoukankan      html  css  js  c++  java
  • 百度新闻搜索结果页的采集

    采集需求示例说明:具体要求如下

    采集页面:http://news.baidu.com/ns?kw=& ... p;word=%C0%ED%B2%C6

    http://news.baidu.com/ns?kw=&sc=news&cl=2&tn=news&ct=0&rn=20&lm=&ie=&rs2=&myselectvalue=&f=&pv=&z=&from=news&word=%C0%ED%B2%C6

    需要的就是这个页面的内容。
    从<div id="r">开始的20条新闻信息。
    信息后面的(“8条相同新闻”)这里的文字和链接不要
    百度搜索结果每页标题都是相同,需要解决(我用的是dede,相同标题不能入库)

    再说明一下,需要的就是这个页面的内容。再进去的站的内容不需要。应该明白?



    这个是一个网友发给我的采集说明;
    针对百度搜索结果的采集,分为3种情况:
    1、直接采集百度搜索结果页面的内容,得到信息的标题,链接,信息的概述;
    2、采集百度搜索结果页面的内容,得到网站名、网址,并排出重复;
    3、采集百度搜索结果页面,得到对应信息链接,再采集信息链接得到最终结果;

    本例中说明的是第一种情况;
    一、先说说百度搜索结果的翻页参数;

    http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=newsA&ie=gb2312&ct=0&word=%C0%ED%B2%C6&pn=(*)&cl=2


    pn是页码的标记,但是和其他的翻页不一样的是,他并不是按照1、2、3、4往上排的,而是0、20、40、60往上加的。
    截图说明:
    baidusearch-采集地址.jpg


    二、采集信息标题:
    正则说明:

    <td class="text"><a href="http://(*)target=_blank><span><b>[参数]</b>


    baidusearch-标题.jpg


    三、采集信息内容:
    正则说明:<font color=#6f6f6f>[参数]et=_blank>百度快照</a>
    baidusearch-内容.jpg


    四、采集信息来源:
    正则说明:<nobr>[参数]
    baidusearch-作者.jpg


    五、采集信息出处:
    正则说明:<nobr>(*) [参数]</nobr>
    baidusearch-出处.jpg


    六、采集信息时间:
    正则说明:<td class="text"><a href="[参数]"
    baidusearch-时间.jpg


    以上采集均使用了页面循环采集的勾选项;
    用火车头的采集结果效果预览请看第二楼的回帖;

    如果要下载写好的规则文件请访问:http://www.dataindex.org/dicontent-834-1-1.html
    [采集规则] 百度搜索结果页系列采集规则

  • 相关阅读:
    UVA 712 STrees
    SGU 109 Magic of David Copperfield II
    SGU 108 Selfnumbers 2
    Go编程语言规范3表达式
    Go编程语言规范1 块,声明与作用域
    golang安装和部署
    Go编程语言规范2类型
    call web services from iPhone
    maximo 支援
    C#動態調用webservice  不加web引用
  • 原文地址:https://www.cnblogs.com/wzg0319/p/2159883.html
Copyright © 2011-2022 走看看