爬虫——URL模块爬取糗事百科段子 - 走看看

zoukankan html css js c++ java

爬虫——URL模块爬取糗事百科段子

最简单的爬取网页找有用信息，难点应该是正则锁定有用信息部分，看了一些其他大神的正则，最后还是决定按照自己理解写一个，果然我头脑相对简单，写出来的粗糙而易理解，也完成了自己想要的需求，就这样了~

# -*- coding:utf-8 -*-
import urllib
import urllib2
import re

page=1
url='http://www.qiushibaike.com/hot/page/'+str(page)
user_agent='Mozilla/4.0 (compatiable; MSIE 5.5; Windows NT)'
headers={'User-Agent':user_agent}
try:
　　request=urllib2.Request(url,headers=headers)
　　response=urllib2.urlopen(request)
　　content= response.read().decode('utf-8')
　　pattern=re.compile('<span>(.*?)</span>',re.S)

　　items=re.findall(pattern,content)

　　for item in items:
　　　　print item

except urllib2.URLError as e:
　　if hasattr(e,"code"):
　　　　print e.code
　　if hasattr(e,"reason"):
　　　　print e.reason

查看全文

相关阅读:
fzu 2204 7 dp
fzu Problem 2198 快来快来数一数 (快速幂+优化)
Hdu 5464 Clarke and problem (dp)
Hdu 5458 Stability (LCA + 并查集 + 树状数组 + 缩点)
Codeforces Round #321 (Div. 2) A, B, C, D, E
Hdu 5451 Best Solver (2015 ACM/ICPC Asia Regional Shenyang Online) 暴力找循环节 + 递推
 Hdu 5459 Jesus Is Here (2015 ACM/ICPC Asia Regional Shenyang Online) 递推
 Hdu 5452 Minimum Cut (2015 ACM/ICPC Asia Regional Shenyang Online) dfs + LCA
Hdu 5442 Favorite Donut (2015 ACM/ICPC Asia Regional Changchun Online 最大最小表示法 + KMP)
I Count Two Three---hdu5878（打表+二分）

原文地址：https://www.cnblogs.com/garvicker/p/9431185.html

Copyright © 2011-2022 走看看