zoukankan      html  css  js  c++  java
  • Python 爬取壁纸图片

    1:打开网址 查看网页结构
    用谷歌浏览器打开链接 F12查看
    由于我使用的pyquery
    可以看到图片的链接 都在img标签的src属性中 我们只要通过pyquery锁定到这个img标签 就可以继续下一步了

    #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    # @Time    : 2019/12/26 13:30
    # @Author  : zwb
    # @File    : GetImage.py
    
    
    import requests
    from  pyquery import PyQuery as pq
    import  time
    import  os
    
    headers={
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 '
                     '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
    
    }
    
    def start_request(url):
        r=requests.get(url,headers=headers)
        r.encoding='GBK'
        html= r.text
        return  html
    
    def parse(text,i):
        doc=pq(text)
        images=doc('div.list ul li img').items()
        x=0
        for image in images:
            img_url=image.attr('src')
            img=requests.get(img_url,headers=headers).content
            # 图片存放路径,F为盘符
            path = "F:\image\"+str(i)
            if not os.path.exists(path):
                os.makedirs(path)
            path ="F:\image\"+str(i)+"\"+str(x)+".jpg"
            with open(path, 'wb') as f:
                f.write(img)
                time.sleep(1)
                print("正在下载第{}张图片".format(x))
                x+=1
                print("写入完成")
    
    def main():
        #设置爬取的页面数第一页到第9页
        for i in range(1,10):
            if(i==1):
                url="http://www.netbian.com/index.htm"
            else:
                 url="http://www.netbian.com/index_"+str(i)+".htm"
            print(url)
            text=start_request(url)
            parse(text,i)
    
    if __name__ == "__main__":
        main()
  • 相关阅读:
    Google TensorFlow 机器学习框架介绍和使用
    Linux下chkconfig命令详解转载
    wireshark----linux
    linux 开机自启转载
    linux 开机自启
    linux 开机自启脚本
    当进行make命令学习是出现error trying to exec 'cc1': execvp: No such file or directory
    centos6.4安装GCC
    安装cmake
    整型数转字符串
  • 原文地址:https://www.cnblogs.com/zhangwenbo0713/p/12101855.html
Copyright © 2011-2022 走看看