zoukankan html css js c++ java

【Python】：简单爬虫作业

使用Python编写的图片爬虫作业：

 1 #coding=utf-8
 2 
 3 import urllib
 4 import re
 5 
 6 def getPage(url):
 7     #urllib.urlopen(url[, data[, proxies]]) :
 8     #创建一个表示远程url的类文件对象，
 9     #然后像本地文件一样操作这个类文件对象来获取远程数据
10     page = urllib.urlopen(url)
11     return page.read()
12 
13 def downloadImg(content):
14     #匹配任意的jpg文件连接
15     pattern = r'src="(.+?\.jpg)" pic_ext'
16     #可以把正则表达式编译成一个正则表达式对象
17     m = re.compile(pattern)
18     #可以获取字符串中所有匹配的字符串
19     urls = re.findall(m, content)
20     
21     #遍历urls数组所有元素
22     for i, url in enumerate(urls):
23         #urllib.urlretrieve(url[, filename[, reporthook[, data]]])
24         #直接将远程数据下载到本地
25         urllib.urlretrieve(url, "%s.jpg" % (i, ))
26         
27 content = getPage("http://tieba.baidu.com/p/2460150866")
28 downloadImg(content)

查看全文

相关阅读:
servlet容器与web容器的概念
 apache点NET环境
 JAVA web选型
 Web服务器排行：Nginx超越Apache 成为全球
 软件介绍(apache lighttpd nginx)
C++性能榨汁机之虚函数的开销
 C++性能榨汁机之伪共享
 《四重缘起深般若》和《心经修正圆通法门》
冥想方法
 中医方子

原文地址：https://www.cnblogs.com/BIGMOM/p/4677208.html