zoukankan html css js c++ java

正则解析

import requests
import re
import os
if __name__ == '__main__':
    # 创建一个文件夹，用来保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')

    url = 'https://www.qiushibaike.com/imgrank/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }

    # 使用通用爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text

    # 使用聚焦爬虫将页面中所有的图片进行解析/提取
    ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
    img_src_list = re.findall(ex,page_text,re.S)
    print(img_src_list)
    for src in img_src_list:
        # 拼接出一个完整的图片url
        src = 'https:' + src
        # 请求到了图片的二进制数据
        img_data = requests.get(url=src,headers=headers).content

        #生成图片名称
        img_name = src.split('/')[-1]

        #图片存储的路径
        imgPath = './qiutuLibs/' + img_name

        with open(imgPath,'wb') as fp:
            fp.write(img_data)
            print(img_name,'下载成功！')

import requests
import re
import os
if __name__ == '__main__':
    # 创建一个文件夹，用来保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }

    # 设置一个通用的url模板
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
    #pageNum = 1

    for pageNum in range(1,4):
        # 对应页码的url
        new_url = format(url%pageNum)

        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url,headers=headers).text

        # 使用聚焦爬虫将页面中所有的图片进行解析/提取
        ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
        img_src_list = re.findall(ex,page_text,re.S)
        print(img_src_list)
        for src in img_src_list:
            # 拼接出一个完整的图片url
            src = 'https:' + src
            # 请求到了图片的二进制数据
            img_data = requests.get(url=src,headers=headers).content

            #生成图片名称
            img_name = src.split('/')[-1]

            #图片存储的路径
            imgPath = './qiutuLibs/' + img_name

            with open(imgPath,'wb') as fp:
                fp.write(img_data)
                print(img_name,'下载成功！')

查看全文

相关阅读:
【Java学习笔记】I/O体系
 【Java学习笔记】几个实用类
 【Java学习笔记】内部类
 【Java学习笔记】对象的序列化和反序列化
 【Java学习笔记】数组的相关事项
 【Java学习笔记】由String str=”abc”引出的故事
 【Java学习笔记】上转型与下转型
 【Java学习笔记】枚举类型
 【Java学习笔记】集合类
 Maven的settings.xml中为HTTP和HTTPS配置代理服务器【转】

原文地址：https://www.cnblogs.com/nanjo4373977/p/12936521.html