zoukankan html css js c++ java

糗图-图片爬取

主要思路

1.来到首页，查看主页有用图片存在html的规律

2.编写re提取图片路径

3.右键图片查看请求图片的具体路径

4.拼接图片请求路径

5.查看下一页界面的路径，找到界面请求路径规律

6.work,多界面爬取指定图片爬虫

import requests
import re
import os
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}

def get_page(page_size):
     for i in range(1,page_size+1):
         url = f"https://www.qiushibaike.com/pic/page/{i}/?s=5222080"
         res=requests.get(url=url,headers=headers)
         #解析图片路径
         pic_list=re.findall('<div class="thumb">[sS]*?<img src="(.*?)" alt',res.text,re.S)
         for i in pic_list:
             i='https:'+i
             pic_res=requests.get(url=i,headers=headers).content
             file_name=i.split("/")[-1]
             #图片数据写入本地文件夹
             with open(f'pic/{file_name}',"wb")as fw:
                 fw.write(pic_res)
                 print(file_name+"写入成功")

if __name__ == '__main__':
    if not os.path.exists("./pic"):
        os.mkdir("./pic")
    #自定义爬取界面页数
    get_page(3)

查看全文

相关阅读:
负载均衡--hash slot算法
 redis cluster slots数量为何是16384（2的14次方）
ZooKeeper原理与它的集群工作流程
 5分钟入门chrony
微服务的下一步，离不开服务网格
 sar统计日流量与实时流量
 docker查看jvm内存占用
 k8s编排
 Rsync 排除文件
 Kubernetes 中优雅停机和零宕机部署

原文地址：https://www.cnblogs.com/zx125/p/11404564.html