zoukankan html css js c++ java

许久没写爬虫，记录下易错点

1.split分隔url链接提取相关信息,split是函数，提取可用索引[]

url = '	https://img2.baidu.com/it/u=2108319215,1494231136&fm=253&fmt=auto&app=120&f=JPEG?w=500&h=690'
a = url.split('/')[3] # split()是函数有括号
print(a)

2.创建下载的文件夹;就是记得加./
注意：创建文件夹之前也要加.，到表示当前跟目录下创建的文件夹

if not os.path.exists('./百度图片'): # 这里是os.path.exists('/文件名')
    os.makedirs('./百度图片')  # 记得加前面的/

3.写入文件夹的路径
要是图片的话要在文件夹下再加一个/表示是在文件夹中；而且对应的文件要加相应的后缀(后缀也是加.)

img_path1 = './百度图片/' + a +'.jpeg' # 注意这里的路径要加.
with open(img_path1,'wb') as f: # 网页源代码和加载出来的链接不同；有机会在研究批量抓取
    f.write(img_co)

完整代码

import requests
import os
url = '	https://img2.baidu.com/it/u=2108319215,1494231136&fm=253&fmt=auto&app=120&f=JPEG?w=500&h=690'
a = url.split('/')[3] # split()是函数有括号
print(a)
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}
img_co = requests.get(url=url,headers=headers).content # 
# 图片路径
img_path= '11.' + 'jpeg' # 注意加. # 直接加名字的话，就是当前目录；要自己新建目录就要创建文件夹，或者用已经有的文件夹加入
# 创建文件夹之前也要加.，到表示当前跟目录下创建的文件夹
if not os.path.exists('./百度图片'): # 这里是os.path.exists('/文件名')
    os.makedirs('./百度图片')  # 记得加前面的/
img_path1 = './百度图片/' + a +'.jpeg' # 注意这里的路径要加.
with open(img_path1,'wb') as f: # 网页源代码和加载出来的链接不同；有机会在研究批量抓取
    f.write(img_co)

努力拼搏吧，不要害怕，不要去规划，不要迷茫。但你一定要在路上一直的走下去，尽管可能停滞不前，但也要走。

查看全文

相关阅读:
虚拟机三种虚拟网络的区别
 关于三次握手和四次挥手的生动解析
 Tkinter布局管理器
 F#周报2019年第4期
 F#周报2019年第3期
 ML.NET 0.9特性简介
 F#周报2019年第2期
 浏览器保存数据的几种方法
 F#周报2019年第1期
 ML.NET教程之客户细分(聚类问题)

原文地址：https://www.cnblogs.com/wkhzwmr/p/15302243.html