zoukankan      html  css  js  c++  java
  • 4k图片爬取+中文乱码

    4k图片爬取+中文乱码

    此案例有三种乱码解决方法,推荐第一种

    4k图片爬取其实和普通图片爬取的过程是没有本质区别的

    import requests
    import os
    from lxml import etree
    
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
    }
    
    def work():
        if not os.path.exists("img"):
            os.mkdir("img")
        url="http://pic.netbian.com/4kqiche/"
        res=requests.get(url=url,headers=headers)
        #最推荐方法
        res.encoding=res.apparent_encoding
        #res.encoding="utf8"
        tree=etree.HTML(res.text)
        imgs=tree.xpath("//ul[@class='clearfix']//a")
        for i in imgs:
            img_u=i.xpath("./img/@src")[0]
            img_url="http://pic.netbian.com"+img_u
            img_name=i.xpath("./b/text()")[0]
            # .encode("ISO-8859-1").decode("utf8")
            img_content=requests.get(url=img_url,headers=headers).content
            with open(f"img/{img_name}.jpg","wb")as fw:
                fw.write(img_content)
                print(img_name+"下载成功")
    if __name__ == '__main__':
        work()
    
  • 相关阅读:
    特殊符号大全
    CSS速记
    JavaScript命名规范
    vim 常用快捷键
    Set a mouse hook
    ASP不可遗弃的通用函数
    ASP递归层级表格数据展示
    最简约JS日历控件
    ASP统计图
    ASP标准MD5代码
  • 原文地址:https://www.cnblogs.com/zx125/p/11409258.html
Copyright © 2011-2022 走看看