zoukankan      html  css  js  c++  java
  • 正则匹配牛刀小试——一键抓取奇虎360新闻信息

    继续爬虫的学习,为了致敬

    http://blog.csdn.net/pleasecallmewhy/article/details/8932310  中why大神的糗事爬虫,我做了一个奇虎新闻的小爬虫,亲测可试,但是我这个爬虫还是单线程的,而且抓取的量也不是很多,而且是最基本的url特性抓取,还没有能力抓取url不变的网站消息。

    首先说一下我要抓取的网站:360新闻搜索 - 搜一下,知天下 ,通过观察其url,不难看出来是

    http://sh.qihoo.com/类别/index_页数.html 的结构,隐藏只需要把它抓取回来,依次用正则的方式匹配就行,废话不多说,上码。

     1 #!/usr/bin/env python
     2 #-*-coding:utf-8-*-
     3 
     4 #---------------------------------------  
     5 #   程序:奇虎360新闻爬虫
     6 #   文件名:Qihoo360.py
     7 #   作者:sysublackbear
     8 #   日期:2014-03-30  
     9 #   语言:Python
    10 #   功能:将360中的新闻,链接及摘要输出并且保存到本地文件    
    11 #---------------------------------------  
    12 
    13 import urllib2
    14 import urllib
    15 import re
    16 import string
    17 
    18 #定义新闻的标签
    19 tags = ['china','world','mil','ent','sports',
    20         'internet','tech','finance','house','auto','edu','game',
    21         'lady','health','society'] 
    22 
    23 class Qihoo360News:
    24     #构造函数
    25     def __init__(self):
    26         self.start = 1   #默认开始从第一页开始
    27         self.end = 5 #默认结束页还是1
    28 
    29     #把某一页的标题和连接都放到字典上
    30     def getPage(self,tag,start,end):
    31         if tag not in tags:
    32             print '你所找的类别不存在!'
    33             return 
    34         if end > 5:
    35             end = 5
    36         url = "http://sh.qihoo.com/"+tag+"/"
    37         intro = '以下是'+tag+'抓取的结果'
    38         print intro
    39         for i in range(start,end+1):
    40             f = open('/home/dzhwen/python文件/Homework/urllib/qihoo/qihoo_'+tag+'_page_'+str(i)+'.txt','w+')
    41             id = ''+str(i)+''
    42             print id.center(40)
    43             f.write(id.center(40)+'
    ')
    44             if i == 1:
    45                 myurl = url + "index.html"
    46             else:
    47                 myurl = url + "index_" + str(i) + ".html"
    48             Response = urllib2.urlopen(myurl)
    49             Page = Response.read()
    50             myItems = re.findall('<div class="hd">.*?<h2><a href="(.*?)" target="_blank">(.*?)</a></h2>.*?<div class="bd">.*?<p>(.*?)<a',Page,re.S)
    51             #其中,re.S为多行匹配模式
    52             #输出同时写入文本
    53             temp = '*******************************************'
    54             for item in myItems:
    55                 print temp
    56                 f.write(temp + '
    ')
    57                 print '标题:',item[1]
    58                 f.write('标题:'+item[1]+'
    ')
    59                 print 'From:',item[0]
    60                 f.write('From:'+item[0]+'
    ')
    61                 print '摘要:',item[2]
    62                 f.write('摘要:'+item[2]+'
    ')
    63                 print temp
    64             f.close()
    65 
    66 
    67 if __name__ == '__main__':
    68     qihoo = Qihoo360News()
    69     menu="""
    70     请选择要抓取的类别:
    71     1——国内;2——国际;3——军事;4——娱乐;5——体育;6——互联网;7——科技;8——财经;
    72     9——房产;10——汽车;11——教育;12——游戏;13——女性;14——健康;15——社会;
    73     或者:?(慎用!!)
    74     一键全抓取??(A)
    75     """
    76     print menu
    77     tag = raw_input("请选择:")
    78     if tag != 'A':
    79         start = raw_input("请选择开始页数(1——5):")
    80         end = raw_input("请选择结束页数(1——5):")
    81         qihoo.getPage(tags[int(tag)-1],int(start),int(end))
    82     else:
    83         for item in tags:
    84             qihoo.getPage(item,1,5)

    就这样,请多多指教!

  • 相关阅读:
    Traefik-v2.x快速入门
    jenkins pipeline持续集成
    phpstorm 2017激活码(方法)
    PHP保留两位小数的几种方法
    php 数组排序 按照某字段
    sql大全
    解决jpgraph在php7.0版本下时,无法显示例子图表的问题
    Linux 定时任务crontab使用
    VIM命令操作
    wampserver变橙色,apache 服务无法启动!问题解决小记(安装失败亦可参考)
  • 原文地址:https://www.cnblogs.com/sysu-blackbear/p/3634155.html
Copyright © 2011-2022 走看看