最近在和朋友做点小东西,由于需要吴江旅游网的虚拟游的*.swf文件,就去看了点python爬虫的教程,然后写了个超级小的爬虫。
步骤如下:
1.分析地址,打开开发者工具箱,打开网络标签,然后再浏览网页,就可以看到它是用GET方法请求资源的,并且没有参数。
2.构造URL,我预计他有30个
for no in range(1,30):
#print no
if no<=9:
name="0"+repr(no)
else:
name=repr(no)
url="http://www.wjtour.gov.cn/virtualtour/jsy/tour"+name+".swf"
3.完整代码(实际上只有22个)
import urllib
import urllib2
#values={}
for no in range(1,30):
#print no
if no<=9:
name="0"+repr(no)
else:
name=repr(no)
url="http://www.wjtour.gov.cn/virtualtour/jsy/tour"+name+".swf"
try:
response = urllib2.urlopen(url)
except urllib2.HTTPError, e:
print e.code
except urllib2.URLError, e:
print e.reason
else:
print "OK"
outfile =open(repr(no)+".swf","w")
outfile.write(response.read())
outfile.close()
print repr(no)+".swf saved!";
4.运行结果
爬虫太好玩了,明天要爬学校的教务系统试试。