zoukankan      html  css  js  c++  java
  • Python学习笔记:利用爬虫自动保存图片

    兴趣才是第一生产驱动力。

    Part 1

    起先,源于对某些网站图片浏览只能一张一张的翻页,心生不满。某夜,冒出一个想法,为什么我不能利用爬虫技术把想看的图片给爬下来,然后在本地看个够。

    由此经过一番初尝试发现,MD一个破图片网站还做什么反爬技术,还做得这么好,害我搞了一个晚上都搞不定,百思不得其解。

    此事暂搁置一段落。

    (附图片网站:妹子图)

    Part 2

    今日,又发现另一网站,遂再次进行测试一番,美名曰:练习技术。

    此篇仅记录如何保存图片,而不是涉及网页爬取、正则解析图片链接识别等,后续再做补充。

    • 第一次尝试,直接请求图片,保存
    import urllib.request
    import time
    
    for i in range(1,6): # 循环次数根据图片数确定
        try:
            f = open('C:\Users\Hider\Desktop\test\de42b_0'+ str(i) + '.jpg', 'wb')
            url = 'https://media.kymari.vip/images/2019/10/11/de42b_00' + str(i) + '.jpg'
            f.write((urllib.request.urlopen(url)).read())
            print(url)
            f.close()
        except Exception as e:
            print(str(i) +" error")
        i += 1
        time.sleep(5) # 休眠5秒
    print("All Done!")
    

    发现能爬取,不过试过几次,都是爬取了差不多10张图就爬不动了。看来还是有反爬措施的,添加了time.sleep(5)每次休眠几秒钟,再请求,发现还是不行,继续改进。

    • 第二次尝试,通过添加headers伪装浏览器进行请求
    import time
    import requests
    
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
    
    for i in range(1,6):
        try:
            url = 'https://media.kymari.vip/images/2019/08/27/a5359_00' + str(i) + '.jpg'
            r = requests.get(url)
            with open('C:\Users\Hider\Desktop\test\a5359_00'+ str(i) + '.jpg', 'wb') as f:
                f.write(r.content)
                print(url)
                f.close()
        except Exception as e:
            print(str(i) +" error")
        i += 1
        time.sleep(10)
    print("All Done!")
    

    终于可以正常的把一整个网页的图片给保存下来了,done!

    哭笑不得的是,网站是开发者可能也是技术一般,没有做好反爬防护措施,针对付费VIP才能观看的部分网页图片,给出了预览图,因此通过发现图片命名规律,直接就把后续付费的部分图片给爬下来,大肆观看。

    (附图片网站:素人吧)

    Part 3

    此文只是针对某个具体网页,图片链接已经通过浏览器F12人工获取,判断规则,再进行一个循环保存而已,实际上,并不算一个“真正的爬虫”,后续再通过其他网站进行练练手,完整的把整个爬取流程给学习完整。

    1. 发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers、data等信息,然后等待服务器响应。这个请求的过程就像我们打开浏览器,在浏览器地址栏输入网址:www.baidu.com,然后点击回车。这个过程其实就相当于浏览器作为一个浏览的客户端,向服务器端发送了 一次请求。
    2. 获取响应内容:如果服务器能正常响应,我们会得到一个Response,Response的内容便是所要获取的内容,类型可能有HTML、Json字符串,二进制数据(图片,视频等)等类型。这个过程就是服务器接收客户端的请求,进过解析发送给浏览器的网页HTML文件。
    3. 解析内容:得到的内容可能是HTML,可以使用正则表达式,网页解析库进行解析。也可能是Json,可以直接转为Json对象解析。可能是二进制数据,可以做保存或者进一步处理。这一步相当于浏览器把服务器端的文件获取到本地,再进行解释并且展现出来。
    4. 保存数据:保存的方式可以是把数据存为文本,也可以把数据保存到数据库,或者保存为特定的jpg,mp4 等格式的文件。这就相当于我们在浏览网页时,下载了网页上的图片或者视频。
  • 相关阅读:
    Excel基础—文件菜单之创建保存
    Excel技巧—名称框的妙用
    Excel基础—文件菜单之设置信息
    Excel基础—文件菜单之打印共享账户
    Excel基础—文件菜单之设置选项
    Excel基础—工作界面概述
    linux环境下pathinfo 工作失败的改进函数
    javascript为网页元素绑定click事件
    将纯真ip数据库解析并导入mysql数据库中
    pgsql导入和导出数据
  • 原文地址:https://www.cnblogs.com/hider/p/11675656.html
Copyright © 2011-2022 走看看