zoukankan      html  css  js  c++  java
  • python网络爬虫--简单爬取糗事百科

      刚开始学习python爬虫,写了一个简单python程序爬取糗事百科。

      具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4959489,可以发现page后的数据代表第几页。

      然后装配request,注意要设置user_agent

    1 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    2 headers = {'User-Agent': user_agent}
    3 request=urllib2.Request(url,headers=headers)
    4 response=urllib2.urlopen(request)

      然后获取返回的数据

    content=response.read().decode('utf-8')

      然后是关键,使用正则匹配出所有的具体内容。这里可以使用浏览器的检查功能查看页面结构,写出相对应的正则式,比如我们对下面的<div class="content">...</div>进行匹配的正则式如下

    pattern=re.compile('<div class="content">....<span>(.*?)</span>...</div>',re.S)
    items=re.findall(pattern,content)

      (.*?)   :表示组,该部分为一个整体,将该部分匹配到字符串作为返回值返回,findall表示找到所有匹配的字符串,以序列的形式返回

      参数re.S表示"."点号匹配所有字符包括换行

    下面是完整代码

     1 import urllib
     2 import urllib2
     3 import re
     4 import time
     5 
     6 page=2
     7 f=open("D:qiushi.txt","r+")
     8 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
     9 headers = {'User-Agent': user_agent}
    10 while page<100:
    11     url="http://www.qiushibaike.com/8hr/page/"+str(page)+"/?s=4959460"
    12 
    13     print url
    14     try:
    15         request=urllib2.Request(url,headers=headers)
    16         response=urllib2.urlopen(request)
    17         content=response.read().decode('utf-8')
    18         # print content
    19         pattern=re.compile('<div class="content">....<span>(.*?)</span>...</div>',re.S)
    20         items=re.findall(pattern,content)
    21         f.write((url+"
    ").encode('utf-8'))
    22         for item in items:
    23             print "------"
    24             item=item+"
    "
    25             print item
    26             f.write("------
    ".encode('utf-8'))
    27             f.write(item.replace('<br/>','
    ').encode('utf-8'))
    28     except urllib2.URLError,e:
    29         if hasattr(e,"code"):
    30             print e.code
    31         if hasattr(e,"reason"):
    32             print e.reason
    33     finally:
    34         page+=1
    35         time.sleep(1)

    这里我是将找到的输出到d盘下的qiushi.txt文件

      

  • 相关阅读:
    二、java 与 scala相互调用
    Gradle Tips#1-tasks
    Guice 学习(六)使用Provider注入服务( Provider Inject Service)
    C++第15周(春)项目3
    cocos2d-x3.2中怎样优化Cocos2d-X游戏的内存
    jqGrid源代码分析(一)
    OCP-1Z0-051-题目解析-第6题
    PHP连接sql server 2005环境配置
    【剑指offer】替换字符串中的空格
    android 推断Apk是否签名和 签名是否一致
  • 原文地址:https://www.cnblogs.com/wuyoucao/p/6434972.html
Copyright © 2011-2022 走看看