zoukankan      html  css  js  c++  java
  • python图片小爬虫

     1 import re
     2 import urllib
     3 import os
     4 
     5 def rename(name): 
     6     name = name + '.jpg'
     7     return name  
     8 
     9 def getHtml(url):
    10     page = urllib.urlopen(url)
    11     html = page.read()
    12     return html
    13 
    14 def getImg(html):
    15     reg = r'src="(.+?.jpg)" pic_ext'
    16     imgre = re.compile(reg)
    17     imglist = re.findall(imgre,html)
    18     
    19     
    20     os.chdir("E:\pic")  
    21     os.getcwd() 
    22     x=1
    23     for imgurl in imglist:
    24         img=urllib.urlopen(imgurl)
    25           
    26         
    27         name=str(x)  
    28         name = rename(name)  
    29         print(name) 
    30         x=x+1
    31         
    32         f=open(name,'wb')
    33         f.write(img.read()) 
    34         f.close()
    35  
    36  
    37  
    38     
    39 html = getHtml("http://tieba.baidu.com/p/3553148164")
    40 getImg(html)
    41 print 'pic save!'

    爬取的网页是  http://tieba.baidu.com/p/3553148164

    图片保存在E盘pic文件夹下


    爬取结果如下:


  • 相关阅读:
    软件使用[17]
    软件使用[20]
    软件使用[12]
    软件使用[10]
    软件使用[22]
    软件使用[06]
    软件使用[11]SlickEdit
    软件使用[19]
    uva 10717【Mint】
    uva 10791【 Minimum Sum LCM】
  • 原文地址:https://www.cnblogs.com/vpoet/p/4659603.html
Copyright © 2011-2022 走看看