zoukankan      html  css  js  c++  java
  • 初学Python-只需4步,爬取网站图片

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来。

    尤其是做我们这一行,产品经理,电商行业。

    领导:弄一个买卖游戏周边商品的交易APP出来。
    我:行,那我们卖什么呀?
    领导:看下友商卖什么我们就卖什么。
    我:好吧,那就爬点数据下来吧。

    玩笑归玩笑,虽有夸张成分,但也不无道理。注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃。为此小编建了个Python全栈免费答疑.裙 :七衣衣九起起巴而五(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步!

    作为入门级别,首先就来学习下怎么爬取网站图片。只需要调用4个方法,即可轻松批量拿到网站图片。

     

    下面对于每一步调用的方法进行详细说明(主要还是自己拿了别人代码之后遇到的坑)

    第一步:获取网页的源代码

    urllib.request.urlopen().read()

    这个方法是获取到请求的这个URL所返回的网页源代码信息数据,返回值是bytes类型时,要将其转换成utf-8才能正常显示在python程序中,所以还要调用decode()方法进行解码。

    最终得到的就是平时我们编写或者查看的页面源代码了。

     

    这里可能会出现的报错信息:

    1.Non-ASCII character 'xe5'

    原因:这是编码的问题,Python的默认编码文件是用的ASCII码,而你的Python文件中使用了中文等非英语字符。

    解决方法:在第一行添加  # -- coding: UTF-8 --

     

    2.如果爬取的网站是https协议的,需要在请求时会验证一次SSL证书

    解决方法:全局加上以下代码

     

    第二步:过滤出图片URL

    这一步至为关键,因为在一堆网页源代码中,要有效找出目标对象(图片URL)的特点(结构特征)才行。怎么找?

    1.了解图片URL的html表达方式

    学过html的同学都知道,图片的标签是<img>,src属性定义其图片源路径。

    2.使用正则表达式进行匹配

    我也没有详细了解过正则表达式各个符号的含义,这里不展开讲。

    这里的正则表达式的意思是,过滤出所有标签是<img>,旗下的src属性,且属性值是以http开头jpg结尾的源代码。

    每个网站的规则都不一样,不能直接套用代码。

    简单例子,你要爬取的网站图片是png格式,直接拿代码去运行肯定是什么都抓不到的。

    再例如,我在一开始设定的规则中是没有加上http开头的,结果抓到一些图片URL是相对路径的数据,导致后面是无法访问URL报错的。

    3.将所有匹配规则的代码存入list里

    re.compile()  根据包含的正则表达式的字符串创建模式对象(直接拿来用就好)

    findall()  返回string中所有与pattern相匹配的全部字串,返回形式为数组

     

    我们试一下打印出来imglist是什么结果,看是不是就把所有匹配规则的内容全部找出来呢!

     

    第三步:定义图片保存路径

    这一步看个人习惯,如果只是少数几张图片,就没有必要新建一个文件夹给图片都保存整理到一起。

    不过如果是爬一个网站或一个网页相对数量级比较大的时候,建议还是全部整理到一个文件夹里面,好管理嘛。

    “新建文件夹”这个基础的操作,就调用os.makedirs()方法即可。

     

    但是这里有3个注意的点:

    1.新建文件夹,你是希望指定路径还是在当前路径下创建?

    指定路径:很简单,直接把你想要创建文件夹的路径复制出来,加上新建文件夹的名称,作为参数直接写到方法里即可。

    eg.(windows)

    当前路径:先获取当前的目录,再拼接上新建文件夹的名称。

    获取当前目录的方式是:os.getcwd()

    eg.

     

    2.新建的文件夹是否已存在?

    相同目录下不能有重名的文件/文件夹,如果直接创建的话,就会报错:文件已存在,无法创建。

     

    3.是否需要考虑windows和macOS的路径表述方式不一样?

    注意一下,两个操作系统对于路径的表述方式是不一样的,尤其是指定路径,要输入正确的路径才能创建成功。

    第四步:将图片URL保存到文件夹下

    现在,图片URL已经存入到list里(见第2步)、保存图片的文件夹也有了,就可以将虚拟的图片url转换成真实的png或jpg文件。

    urllib.request.urlretrieve(url, filename)  这个方法就是将远程数据下载到本地

    url:远程或本地的url,对应这里就是要放图片URL了。

    filename:保存的完整地方,即“路径+文件名”。如果未指定该参数,urllib会生成一个临时文件来保存数据。

    这里要注意3个地方:

    1.图片的文件名怎么生成?

    建议使用最简单的方式来生成文件名:递增数字+图片后缀

    这里就再次说明要新建文件夹的重要性,新建文件夹后,这个目录下是全新空白的,不用考虑生成的文件名会不会和原有文件名重复的问题。

    递增数字:譬如说,第一张图片叫“1.jpg”,第二张图片叫“2.jpg”,如此类推。

    2.一般网站爬下来的图片是多张的,如何批量处理?

    这里也说明了,为什么要将抓取到的图片url存到list里面了。给list一个循环,每个url调用一次urllib.request.urlretrieve()方法,那就相当于每个url都保存为1个图片。

     

    3.报错:urllib2.HTTPError: HTTP Error 403: Forbidden

    原因:一些网站是禁止爬虫做的处理

    解决方法:可以在请求加上头信息,伪装成浏览器访问User-Agent(具体的信息可以通过火狐的FireBug插件查询),再去请求。

     

    运行结果:一堆图片

     

    其他问题

    1.没有自动安装或导入第三方库,如urllib.request

    报错:ImportError: No module named request

    解决方法:安装第三方库,Mac机上在安装python3之后,系统是自动安装了pip3,所以我们只需要每次使用pip3即可安装(Windows请自行百度,注意区分Python2和Python3)

    敲入安装命令:pip3 install requests

    2.千万千万要注意windows和mac系统的路径表达方式不一样

    因为我是两个操作系统切换着用,所以很头痛有这个问题,每次要记得改就是了,没技术难度。或者再加一层系统判断进行兼容就好了。

    最后注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃。为此小编建了个Python全栈免费答疑.裙 :七衣衣九起起巴而五(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步!

    本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

  • 相关阅读:
    Memcache
    在.net中读写config文件的各种方法
    Visual Studio 2013 Web开发、新增功能:“Browser Link”
    Web.Config文件中使用configSource
    方正S4101g笔记本电脑搜不到无线网络
    *.bz2和*.gz分别是什么压缩格式
    HTTP 错误 500.19
    【Java】得到当前股票信息
    【Java】得到当前系统时间,精确到毫秒
    【Java】SHA加密
  • 原文地址:https://www.cnblogs.com/chengxuyuanaa/p/12384349.html
Copyright © 2011-2022 走看看