爬虫爬取视图片

import re
import requests

'''
上海大学校花史翌竹
'''

'''
http://www.xiaohuar.com/list-1-0.html
http://www.xiaohuar.com/list-1-1.html
http://www.xiaohuar.com/list-1-2.html
http://www.xiaohuar.com/list-1-3.html
http://www.xiaohuar.com/list-1-4.html
'''
count= 0
for i in range(44):
url = f'http://www.xiaohuar.com/list-1-{i}.html'
response = requests.get(url)
data = response.text
# print(data)

result_list = re.findall('" src="(.*?)" /></a>', data)
# print(result_list)
for result in result_list:
    # print(result,type(result))
    if result.startswith('https'):
        # print(result)

        img_response = requests.get(result)
        img_name = result.split('/')[-1]
        img_data = img_response.content
        with open(img_name, 'wb') as fw:
            fw.write(img_data)
            fw.flush()
        count +=1
        print(f'爬取了{count}张')

查看全文

相关阅读:
单片机学习01__跑起你的流水灯
 python2与python3共存
 rpi-kali 搭建网络靶场
 P3388 【模板】割点（割顶）
P3387 【模板】缩点
 P1069 细胞分裂
 The Unique MST[不严格的次小生成树]
P3369 【模板】普通平衡树
 Netty的线程模型可不是Reactor这么简单
 SpringBoot+Mybatis+MySQL实现读写分离

原文地址：https://www.cnblogs.com/oxtime/p/11228126.html