zoukankan      html  css  js  c++  java
  • 1.网页结构分析与xpath分析.md

    爬虫-python+Qt -网页结构分析与xpath分析

    potplay播放器

    搜索页

    • 搜索请求
    request_url ='https://www.nmgk.com/index.php?s=vod-s-name'
    mother_url ='https://www.nmgk.com/'
    headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'
    }
    data = {
        'wd':'瑞克和莫蒂'
    }
    
    • xpath分析
      图 1
    获取链接
    #result_href
    //div[@class ='cateimg']/a/@href
    
    内容
    /vod/8314.html
    /vod/19407.html
    /vod/10724.html
    /vod/10872.html
    /vod/10871.html
    
    获取名字
    #result_name
    //div[@class ='itemname']/a/text()
    
    内容
    瑞克和莫蒂第四季
    瑞克和莫蒂第五季
    瑞克和莫蒂第一季
    瑞克和莫蒂第三季
    瑞克和莫蒂第二季
    
    #获取更新
    #result_update
    //div[@class ='cateimg']/a/i/text()
    
    内容
    10集全
    更新至04集
    11集全
    10集全
    10集全
    

    详情页

    • 搜索请求
    request_url ='https://www.nmgk.com//vod/8314.html'
    headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'
    }
    
    
    
    ~~~ python
    获取图片
    #movie_pic
    //div[@class='video_pic']//img/@src
    
    内容
    /Uploads/vod/2021-03-31/6063eece12246.jpg
    
    获取描述
    #movie_info
    //div[@class='intro-box-txt']/p[2]/text()
    
    内容
    瑞克和莫蒂第五季,这是由一个个独立小故事组成,精妙无比的剧情安排,天马行空的想象力,突破天际的脑洞,是本剧最大的特点。
    
    获取集数名称
    #episode_name_list
    //div[@id='ji_show_1_0']//div[@class='drama_page']/a/text()
    
    内容
    第01集
    第02集
    第03集
    第04集
    
    获取集数链接
    #episode_href_list
    //div[@id='ji_show_1_0']//div[@class='drama_page']/a/@href
    
    内容
    /v/19407-1-1.html
    /v/19407-1-2.html
    /v/19407-1-3.html
    /v/19407-1-4.html
    

    播放页

    获取m3u8字符串
    #m3u8_pre_list
    //div[@id='cms_player']/iframe/@src
    
    内容
    /play.html?u=https://vod.bunediy.com/20210705/v2D5n7nM/index.m3u8
    
    #逻辑
    m3u8_string=m3u8_pre_list[0]
    m3u8 = m3u8_string.split('=')[-1]
    内容
    https://vod.bunediy.com/20210705/v2D5n7nM/index.m3u8
    
  • 相关阅读:
    时间工时累加
    python读取mnist
    开始学习haskell
    pip升级所有packages
    ImportError: numpy.core.multiarray failed to import
    NumPy for MATLAB users
    Spyder
    初学ObjectiveC
    Matlab闭包
    ObjeciveC 内存管理
  • 原文地址:https://www.cnblogs.com/xiehuangzhijia/p/15046101.html
Copyright © 2011-2022 走看看