zoukankan      html  css  js  c++  java
  • 【Python】:简单爬虫作业

    使用Python编写的图片爬虫作业:

     1 #coding=utf-8
     2 
     3 import urllib
     4 import re
     5 
     6 def getPage(url):
     7     #urllib.urlopen(url[, data[, proxies]]) :
     8     #创建一个表示远程url的类文件对象,
     9     #然后像本地文件一样操作这个类文件对象来获取远程数据
    10     page = urllib.urlopen(url)
    11     return page.read()
    12 
    13 def downloadImg(content):
    14     #匹配任意的jpg文件连接
    15     pattern = r'src="(.+?\.jpg)" pic_ext'
    16     #可以把正则表达式编译成一个正则表达式对象
    17     m = re.compile(pattern)
    18     #可以获取字符串中所有匹配的字符串
    19     urls = re.findall(m, content)
    20     
    21     #遍历urls数组所有元素
    22     for i, url in enumerate(urls):
    23         #urllib.urlretrieve(url[, filename[, reporthook[, data]]])
    24         #直接将远程数据下载到本地
    25         urllib.urlretrieve(url, "%s.jpg" % (i, ))
    26         
    27 content = getPage("http://tieba.baidu.com/p/2460150866")
    28 downloadImg(content)
  • 相关阅读:
    5,7地面物品
    0,1选怪
    0,2使用红,蓝
    BT地址(__)
    3,7包裹物品数组
    0,4捡物
    如何在目标内网中发现更多存活主机
    xss自动化攻击
    .NET Framework 4安装失败
    利用struts1.x框架需要注意的问题
  • 原文地址:https://www.cnblogs.com/BIGMOM/p/4677208.html
Copyright © 2011-2022 走看看