zoukankan html css js c++ java

爬取校花网大学校花代码

import re
import os
import requests
count = 0
for i in range(10):
url = f"http://www.xiaohuar.com/list-1-{count}.html"
response = requests.get(url)
data = response.text

result_list = re.findall('src="(.*?)" /></a>',data)
# print(type(result_list))

for result in result_list:
    # print(result,type(result))
    if not result.startswith('http'): # 取出
        res = f"http://www.xiaohuar.com/{result}"  # 拼接图片网址
        print(res)  # 打印拼接好的图片路径
        img_response = requests.get(res)  # 获取图片
        img_name = res.split('/')[-1]  # 文件名字
        img_data = img_response.content  #将图片转化为二进制

        BASE_PATH = os.path.dirname(__file__)
        img_path = os.path.join(BASE_PATH,'datas',f'{img_name}')

        with open(img_path,'ab') as fw:
            fw.write(img_data)
            fw.flush()

count += 1
print(f'爬取了{count}页')

"""

http://www.xiaohuar.com/hua/
http://www.xiaohuar.com/list-1-1.html
http://www.xiaohuar.com/list-1-0.html
http://www.xiaohuar.com/list-1-1.html
http://www.xiaohuar.com/list-1-2.html

src="/d/file/20190726/small6880259bcb61b80ce246e497a448185c1564117785.jpg"

"""

查看全文

相关阅读:
更快的datetime string to python datetime转换模块 ciso8601
华为新员工入职培训计划曝光！你留不住员工的原因就在这！ zz
在vmware中安装macos系统 vm12 osx10.11 or higher
vmware for linux (centos65) 卸载相关
 第八章多态
 第七章复用类
 第六章访问权限控制
 Think in Java 第四五章
 Think in Java 第三章操作符
 Thank in Java

原文地址：https://www.cnblogs.com/zuihoudebieli/p/11331768.html