zoukankan      html  css  js  c++  java
  • 爬取图片

    参考爬取思路代码如下:

     1 import requests
     2 import re
     3 
     4 # 获取网页源码
     5 url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/'
     6 data = requests.get(url).text
     7 
     8 #正则表达式三部曲
     9 #<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黄人图片">
    10 regex = r'<img src="(.*?.jpg)"'#匹配网址
    11 pa = re.compile(regex)#转为pattern对象
    12 ma = re.findall(pa, data)#findall 方法找到所有的符合pa的对象,添加到一个列表中并返回
    13 #print(ma)#图片网址列表
    14 print('本次爬取共获取图片'+str(len(ma))+'')#列表长度,即找到图片个数
    15 
    16 i = 0#这里的i, 只是为了给图片命名。。。
    17 for imgurl in ma:
    18     i += 1
    19     print('正在爬取'+imgurl)
    20     imgdata = requests.get(imgurl).content
    21     with open(str(i)+'.jpg', 'wb') as f:
    22         f.write(imgdata)
    23 
    24 print('爬取完毕!')
    逆风的方向更适合飞翔,不怕千万人阻挡,只怕自己投降!
  • 相关阅读:
    Python学习 :面向对象 -- 三大特性
    Python学习 :面向对象(一)
    小米oj #40 找小“3”
    第三次作业
    排序算法模板
    树状数组求逆序数
    最短路模板
    字典树模板
    LCS
    多项式朴素乘法
  • 原文地址:https://www.cnblogs.com/jackzz/p/9203259.html
Copyright © 2011-2022 走看看