zoukankan      html  css  js  c++  java
  • 快递信息爬取

    https://www.kuaidi100.com/network/net_4117_all_all_2.htm

    获取每一页的链接

    import requests 
    from bs4  import BeautifulSoup
    url = "https://www.kuaidi100.com/network/net_4117_all_all_1.htm"
    try:
        r = requests.get(url)
        r.raise_for_status()   ##
        r.encoding = r.apparent_encoding
        print(r.text[:1000])
    except:
        print("爬取出错")
        
    soup = BeautifulSoup(r.text, "html.parser")
    networklist = soup.select(".networkListItem")
    for i in networklist:
        print(i.find("a").attrs['href'])	
    

    网店节点链接https://www.kuaidi100.com/network/net_4117_all_all_2.htm 只有2.htm 会变

    所以对https://www.kuaidi100.com/network/net_4117_all_all_2 数字累加,并判断网店的链接是否为0来决定

    url = "https://www.kuaidi100.com/network/net_4117_all_all_60.htm"
    try:
        r = requests.get(url)
        r.raise_for_status()   ##
        r.encoding = r.apparent_encoding
        print(r.text[:1000])
    except:
        print("爬取出错")
        
    soup = BeautifulSoup(r.text, "html.parser")
    networklist = soup.select(".networkListItem")
    len(networklist)  
    0  ##长度为0 /net_4117_all_all_60.htm  链接无信息
    
    url = "https://www.kuaidi100.com/network/net_4117_all_all_1.htm"
    soup = BeautifulSoup(r.text, "html.parser")
    networklist = soup.select(".networkListItem")
    len(networklist)  
    10  ##长度为10 该连接有网店信息
    

    匹配url , url 一次累加

    import re 
    pattern = re.compile(r"(.*_)(d+).htm$", re.I)
    url = "https://www.kuaidi100.com/network/net_4117_all_all_1.htm"
    m = pattern.match(url)
    m.group(0)
    'https://www.kuaidi100.com/network/net_4117_all_all_1.htm'
    m.group(1)
    'https://www.kuaidi100.com/network/net_4117_all_all_'
    m.group(2)
    '1'
    m.groups()
    ('https://www.kuaidi100.com/network/net_4117_all_all_', '1')
    
    

    对url 链接不断累加,如果判断对一个网页里的网店链接信息url 小于10 就停止

    i = 1 
    while  True:
        if i < 50:
            i = i + 1
            print(i)
        else:
            print("you are over")
            break
    

    分析

    ##输入初始url 以便获取网点详情
    
    def 
    
    
    
    
    
    
    
    ##根据1,抓取每个url
    
    
    
    
    ##对每个url 抓取信息
    url = "https://www.kuaidi100.com/network/networkdt792925391984709.htm"
    try:
        r = requests.get(url)
        r.raise_for_status()   ##
        r.encoding = r.apparent_encoding
        print(r.text[:1000])
    except:
        print("爬取出错")
        
    ##抓取信息
    soup = BeautifulSoup(r.text, "html.parser")
    kdinfo = soup.select(".kd-info")[0]   ##获取的为list 
    kdinfo.prettify() ##打印获取的信息
    ## kddlinfo = kdinfo.find_all("dl")  ##获取kdinfo 标签内的dl标签,标签内有dt(名称)  及dd(详情)
    title = kdinfo.h1.text
    
    
    
    ddlist = kdinfo.find_all("dd")
    
    for dd in ddlist:
        print("
    ----------")
        print(dd.text)
    
        
        ##打印
    -------------------------
    河南,驻马店市,正阳县
    
    -------------------------
    正确路口东段北侧
    
    -------------------------
    查件电话:17744695161业务电话:17744695161
    
    -------------------------
    联系时,请一定说明是在快递100看到的信息,谢谢!
    
    -------------------------
    南环路以北、西环路以东,交警队、电视台以南,正付路-东环路以西。东、西、南、北大街,中心街、花园路、正大路、东、西顺河街、慎西路。县直各单位、局委、厂区、学校。铜钟街及铜钟全境。
    陡沟镇、傅寨乡、兰青乡、永兴镇、彭桥乡、新阮店乡、熊寨镇、吕河乡。
    
    延迟派送:岳城乡:1天,西严店乡:1天。
    
    -------------------------
    寒冻镇。
    
    -------------------------
    到付业务,代收货款
    
    -------------------------
    2019-11-04
    
    
    
    
    列表:
    h1:地点;驻马店正阳县
      title = kdinfo.h1.text
    所在地区:
    
    公司地址:
    联系电话:
    派送范围:
    延迟派送:
    派送范围:
    不派送范围:
    备注:
    本站更新:
    
    
    
    
    
    
    ##保存抓取的信息
    http://www.python-excel.org/
    https://www.jianshu.com/p/a8391a2b8c6c
    
    
    
    
    
    
    
    
    

    https://www.kancloud.cn/xmsumi/pythonspider/160081

  • 相关阅读:
    HNU 12906 Battleship
    codeforces 261 D
    HDU 4939 Stupid Tower Defense(dp)
    HDU 4941 Magical Forest(map映射+二分查找)杭电多校训练赛第七场1007
    HDU 4902 Nice boat 2014杭电多校训练赛第四场F题(线段树区间更新)
    【转载】使用Pandas对数据进行筛选和排序
    【转载】使用pandas进行数据清洗
    【转载】VC维的来龙去脉
    Python-时间操作
    Pandas-数据导入
  • 原文地址:https://www.cnblogs.com/g2thend/p/12382087.html
Copyright © 2011-2022 走看看