【python】爬取糗事百科段子

#-*-coding:utf-8-*-
import urllib
import urllib2
import re
def get_duanzi(url):
    store=[]
    user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64)'
    headers={'User-Agent':user_agent}
    request=urllib2.Request(url,headers=headers)
    response=urllib2.urlopen(request)
    html=response.read().decode('utf-8')
    pattern=re.compile('<div class="author clearfix">.*?<h2>(.*?)</h2>.*?<div.*?span>(.*?)</span>(.*?)<div class="stats">.*?"number">(.*?)</i>',re.S)
    results=re.findall(pattern,html)

    for result in results:
        haveImg=re.search("img",result[2])
        if not haveImg:
            store.append([result[0],result[1],result[3]])
    for st in store:
        print st[0]
        print st[1]
        print st[2]
#爬取糗事百科前13页的段子
for page in range(1,14):
    url='http://www.qiushibaike.com/hot/page/'+str(page)
    get_duanzi(url)

查看全文

相关阅读:
一些经验
 倍增（在线）求LCA
IDA*算法——骑士精神
 A*算法——第K短路
 （持续更新）一些黑科技和技巧
 逆元
 方便人类——信息学训练专用库
 PHP单点登陆
 PHP 中运用 elasticsearch
PHP斐波那契数列

原文地址：https://www.cnblogs.com/bashaowei/p/8830968.html