zoukankan html css js c++ java

re实战之糗图图片爬取及解析

import requests
import re
import os
if __name__ == "__main__":
    # 创建一个文件夹用来保存所有图片
    if not os.path.exists('./qiutulibs'):
        os.mkdir('./qiutulibs')

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
    }   # UA伪装
    url = 'http://www.qiushidabaike.com/pic'
    # 使用通用爬虫对一整张页面数据进行爬取
    page_text= requests.get(url=url,headers=headers).text

    # 使用聚焦爬虫将页面中所有的糗图进行爬取
    ex = '<dd class="content content-pic">.*?<img src="(.*?)" alt.*?</dd>' # 正则方式
    img_src_list = re.findall(ex,page_text,re.S) # 正则数据提取
    # print(img_str_list)
    for src in img_src_list:
        #拼接处一个完整的图片url
        src = 'http://www.qiushidabaike.com'+src
        # 获取到图片二进制数据
        img_data= requests.get(url=src,headers=headers).content
        # 生成图片名称
        img_name = src.split('/')[-1]
        img_path = './qiutulibs/'+img_name

        fp = open(img_path,'wb')
        fp.write(img_data)
        print(img_name,'下载成功')

查看全文

相关阅读:
06-图3 六度空间
 06-图2 Saving James Bond
06-图1 列出连通集
 05-树9 Huffman Codes
数据结构学习笔记04树(堆哈夫曼树并查集)
05-树8 File Transfer
05-树7 堆中的路径
 十天学会单片机Day1点亮数码管(数码管、外部中断、定时器中断)
设计模式—— 四：接口隔离原则
 设计模式—— 一：单一职责原则

原文地址：https://www.cnblogs.com/huahuawang/p/12692386.html