zoukankan      html  css  js  c++  java
  • 许久没写爬虫,记录下易错点

    1.split分隔url链接提取相关信息,split是函数,提取可用索引[]

    url = '	https://img2.baidu.com/it/u=2108319215,1494231136&fm=253&fmt=auto&app=120&f=JPEG?w=500&h=690'
    a = url.split('/')[3] # split()是函数有括号
    print(a)
    

    2.创建下载的文件夹;就是记得加./
    注意:创建文件夹之前也要加.,到表示当前跟目录下创建的文件夹

    if not os.path.exists('./百度图片'): # 这里是os.path.exists('/文件名')
        os.makedirs('./百度图片')  # 记得加前面的/
    

    3.写入文件夹的路径
    要是图片的话要在文件夹下再加一个/表示是在文件夹中;而且对应的文件要加相应的后缀(后缀也是加.)

    img_path1 = './百度图片/' + a +'.jpeg' # 注意这里的路径要加.
    with open(img_path1,'wb') as f: # 网页源代码和加载出来的链接不同;有机会在研究批量抓取
        f.write(img_co)
    

    完整代码

    import requests
    import os
    url = '	https://img2.baidu.com/it/u=2108319215,1494231136&fm=253&fmt=auto&app=120&f=JPEG?w=500&h=690'
    a = url.split('/')[3] # split()是函数有括号
    print(a)
    headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}
    img_co = requests.get(url=url,headers=headers).content # 
    # 图片路径
    img_path= '11.' + 'jpeg' # 注意加. # 直接加名字的话,就是当前目录;要自己新建目录就要创建文件夹,或者用已经有的文件夹加入
    # 创建文件夹之前也要加.,到表示当前跟目录下创建的文件夹
    if not os.path.exists('./百度图片'): # 这里是os.path.exists('/文件名')
        os.makedirs('./百度图片')  # 记得加前面的/
    img_path1 = './百度图片/' + a +'.jpeg' # 注意这里的路径要加.
    with open(img_path1,'wb') as f: # 网页源代码和加载出来的链接不同;有机会在研究批量抓取
        f.write(img_co)
    
    
    努力拼搏吧,不要害怕,不要去规划,不要迷茫。但你一定要在路上一直的走下去,尽管可能停滞不前,但也要走。
  • 相关阅读:
    Linux下rabitMq的部署(源码安装)
    yum安装时出现:Cannot retrieve metalink for repository: epel. Please verify its path and try again
    性能实战分析-问题分析(三)
    当前服务器的并发连接数查看
    性能实战分析-问题分析(二)
    数据库中文乱码及分析
    HDU 4857 逃生 (优先队列+反向拓扑)
    HNU 12826 Balloons Colors
    HNU 12827 NASSA’s Robot
    HNU 12812 Broken Audio Signal
  • 原文地址:https://www.cnblogs.com/wkhzwmr/p/15302243.html
Copyright © 2011-2022 走看看