zoukankan      html  css  js  c++  java
  • Python之小测试:用正则表达式写一个小爬虫用于保存贴吧里的所有图片

    很简单的两步:

      1、获取网页源代码

      2、利用正则表达式提取出图片地址

      3、下载

     1 #!/usr/bin/python
     2 #coding=utf8
     3 import re       # 正则表达式
     4 import urllib   # 获取网页源代码
     5 
     6 # 用正则表达式写一个小爬虫用于保存贴吧里的所有图片
     7 
     8 # 获取网页源代码
     9 def getHtml(url):
    10         page = urllib.urlopen(url)      # 打开url,返回页面对象
    11         html = page.read()              # 读取页面源代码
    12         return html
    13 
    14 # 获得图片地址
    15 def getImg(html):
    16         reg = r'src="(.*?.jpg)" size="'        # 定义一个正则来匹配页面当中的图片
    17         imgre = re.compile(reg)         # 为了让正则更快,给它来个编译
    18         #这个时候做个测试,把匹配的数据都给打印出来
    19         imglist = re.findall(imgre, html)                       # 通过正则返回所有数据列表
    20         # 把这个地址一个一个的拿下来进行下载
    21         x = 0 
    22         for imgurl in imglist:
    23                 urllib.urlretrieve(imgurl,'%s.jpg' % x)
    24                 x+=1
    25 
    26 html = getHtml("https://tieba.baidu.com/p/5154221980")
    27 getImg(html)
  • 相关阅读:
    第七次作业
    rfid工作原理
    实验九——基本数据类型存储及应用总结
    实验八——函数定义及调用总结
    实验七——函数定义及调用总结
    作业
    作业
    作业
    开始
    实验12——指针的基础应用2
  • 原文地址:https://www.cnblogs.com/fallenmoon/p/6987589.html
Copyright © 2011-2022 走看看