zoukankan      html  css  js  c++  java
  • 8.Python爬虫实战一之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。

    首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。

    1.抓取糗事百科热门段子

    2.过滤带有图片的段子

     1 #coding:utf-8
     2 import urllib
     3 import urllib2
     4 import re
     5 page = 1
     6 url = 'https://www.qiushibaike.com/hot/page/1/'+str(page)
     7 user_agent = 'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
     8 headers = {'User-Agent':user_agent}
     9 
    10 try:
    11     request = urllib2.Request(url,headers=headers)
    12     response = urllib2.urlopen(request)
    13     qiubaiPattern =re.compile('<div.*?author.*?alt="(.*?)>.*?content.*?span>(.*?)</.*?number">(.*?)<',re.S)
    14     infos = re.findall(qiubaiPattern,response.read().decode('utf-8'))
    15     for info in infos:
    16         for a in info:
    17             str = a.replace('<br/>','
    ') #将段子正文中的<br/>替换成回车
    18             print str.strip() #删除字符中的首尾空格
    19 
    20 except urllib2.URLError,e:
    21         if hasattr(e,'code'):
    22             print e.code
    23         if hasattr(e,'reason'):
    24             print e.reason

    在这里不打算详细讲解这个代码,以后有空了再回来补上 嘻嘻

  • 相关阅读:
    C+= concurrent_queue 线程安全测试
    c++ 枚举 在函数中的应用
    shell脚本积累
    hibernate+spring整合增删改事务错误
    checkbox批量删除功能
    html全选和取消全选JS
    hibernate+pageBean实现分页dao层功能代码
    table样式
    WebStorm 11 Lisence server
    Kb,KB,Kbps,Mb,Mbps等一些列概念
  • 原文地址:https://www.cnblogs.com/stephenmc/p/7487168.html
Copyright © 2011-2022 走看看