zoukankan      html  css  js  c++  java
  • 百度 资讯 爬虫解决方案

    前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法

    第一步:关键词搜索

      1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。

      2.搜索按照时间大小排序,在第一页解析出来  新闻标题,新闻来源,新闻发布时间,新闻简单描述,新闻url链接。

                                

       3.新闻相信信息解析:

           例如下面的这边新闻,如何解析出来红色的部分信息呢?

        

         策略一: 使用 newspaper,优点是能解析出来大部分的网页,缺点是速度慢,这个Python第三方库不是万能的,比如一些负责的网页是解析不出来信息的。

             使用代码

                

                from newspaper import Article
                url = 'http://www.npc.gov.cn/npc/zhibo/zzzb30/2018-10/26/content_2064215.htm'
                a = Article(url, language='zh') # Chinese
                a.download()
                a.parse()
                print "11111",a.text
                print "22222",a.title

            结果截图:
                

     
    
    
          策略二: 自己写解析规则;
            新闻网页都有什么解析规则呢? 比如都有 开始都有来源,时间等,结束有 责任编辑等词语,自己研究出来一个解析规则

  • 相关阅读:
    uva 147 Dollars
    hdu 2069 Coin Change(完全背包)
    hdu 1708 Fibonacci String
    hdu 1568 Fibonacci
    hdu 1316 How Many Fibs?
    poj 1958 Strange Towers of Hanoi
    poj 3601Tower of Hanoi
    poj 3572 Hanoi Tower
    poj 1920 Towers of Hanoi
    筛选法——素数打表
  • 原文地址:https://www.cnblogs.com/xuchunlin/p/10181161.html
Copyright © 2011-2022 走看看