zoukankan      html  css  js  c++  java
  • 梨视频最热视频爬取源码

      1 # -*- ecoding: utf-8 -*-
      2 # @ModuleName: 2、梨视频最热视频爬取
      3 # @Function: 
      4 # @Author: merry
      5 # @Time: 2021/1/20 18:51
      6 import requests
      7 from lxml import etree
      8 from multiprocessing.dummy import Pool
      9 import random
     10 import os
     11 import time
     12 
     13 url = 'https://www.pearvideo.com/category_5'
     14 # 定义请求头
     15 headers = {
     16     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
     17 }
     18 # 获得当前页面所有数据
     19 response = requests.get(url, headers=headers).text
     20 # etree解析
     21 tree = etree.HTML(response)
     22 # 解析详情页面的url返回li标签列表
     23 div_list = tree.xpath('//ul[@id="listvideoListUl"]/li')
     24 # 定义一个视频列表用来存放所有视频的文件路径,文件名,视频真实地址的url
     25 video_list = []
     26 # 遍历list标签
     27 for li in div_list:
     28     # video_1716852  解析a标签的href熟悉获取详情页url
     29     viedeo_url = li.xpath('./div/a/@href')[0]
     30     # 获取视频的名称
     31     viedeo_name = li.xpath('./div/a/div[2]/text()')[0]
     32     # 1716852  分隔viedeo_url 得到一个数组,获取第一个元素得到数字ID
     33     viedeo_contID = str.split(viedeo_url, 'video_')[1]
     34     # 返回视频地址的url
     35     url = 'https://www.pearvideo.com/videoStatus.jsp'
     36     # 生成随机时间戳
     37     time_mrd = random.random()
     38     # 定义请求头,这个请求头需要传入一个上面解析到的viedeo_url
     39     headers = {
     40         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',
     41         'Referer': f'https://www.pearvideo.com/{viedeo_url}'
     42     }
     43     # 定义params参数,传入contId上面获取到的viedeo_contID,还需要传入一个mrd随机时间戳,上面已经生成time_mrd
     44     # 这两个参数和上面的请求头的内容是必须的,否则响应回来的数据提示页面不存在,错误的json
     45     params = {
     46         'contId': viedeo_contID,
     47         'mrd': time_mrd
     48     }
     49     # 请求视频地址的url,返回的是一个json的数据
     50     reponse = requests.get(url, headers=headers, params=params).json()
     51     # 使用字典的方式一次获取一个srcUrl的键值,这个地址不是真正的视频地址:如下
     52     ## 此地址是返回json地址    https://video.pearvideo.com/mp4/third/20210120/1611144446807-10008579-085440-hd.mp4   这个地址拿去浏览器你会发现404 notfound根本找不到这个视频
     53     #                                                                拼接部分cont-viedeo_url
     54     # 这是真实的视频地址       https://video.pearvideo.com/mp4/third/20210120/cont-1717106-10008579-085440-hd.mp4    这个真实地址是通过打开详情页面播放视频的时候抓包所获得
     55     # 通过对比你发现在真实地址最后一个斜杠后面的参数是 cont-1717106-10008579-085440-hd.mp4
     56     #                          而请求返回的地址是 1611144446807-10008579-085440-hd.mp4
     57     # 除了cont-1717106 和 1611144446807 不一样 其他都一样,说明有猫腻
     58     # 分析真实地址的cont-1717106  发现1717106 是前面参数viedeo_url请求到的url链接的后半部分数字,
     59     # 那么就需要截取字符串再将viedeo_url的数字部分和cont-进行拼接 得到类似cont-1717106-10008579-085440-hd.mp4这样的名称才是视频的真实地址
     60 
     61     # 从json中拿到假的视频url链接
     62     get_video_url = reponse['videoInfo']['videos']['srcUrl']
     63     # 获取需要替换的随机时间戳
     64     get_systemTime = reponse['systemTime']
     65     # 使用viedeo_contID拼接字符串cont-得到一个新的new_viedeo_contID
     66     new_viedeo_contID = 'cont-' + viedeo_contID
     67     # 替换假url中的随机时间戳为上面拼接好的new_viedeo_contID得到一个真实视频下载的url
     68     new_viedeo_url = str.replace(get_video_url, get_systemTime, new_viedeo_contID)
     69     print(f'33[32m拼接新的URL   {new_viedeo_url}    完成')
     70     # 定义个字典,将文件路径,视频的名称和真实地址的url放在里面
     71     url_dict = {
     72         'file_path': './mp4/',
     73         'name': viedeo_name + '.mp4',
     74         'new_viedeo_url': new_viedeo_url
     75     }
     76     # 将上面的字典添加的列表中方
     77     video_list.append(url_dict)
     78 
     79 # 判断存放视频的文件夹是否存在,如果不存在则新建文件夹
     80 if not os.path.exists('./mp4'):
     81     os.mkdir('mp4')
     82 
     83 
     84 def get_video_data(dict):
     85     """
     86     :param dict: 得到真实视频的二进制数据并存入硬盘
     87     :return:
     88     """
     89     # 定义请求头
     90     headers = {
     91         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
     92     }
     93 
     94     print(f'33[31m开始下载{dict["name"]}')
     95     # 定义开始时间
     96     start_time = time.time()
     97     # 获取传入进来字典的new_viedeo_url,的真实视频地址的url获取二进制响应数据
     98     viedeo_content = requests.get(dict["new_viedeo_url"], headers=headers).content
     99     # 存放到硬盘,获取字典的路径和文件名
    100     with open(dict["file_path"] + dict['name'], 'wb') as fp:
    101         # 写入硬盘
    102         fp.write(viedeo_content)
    103         # 下载结束时间
    104         end_time = time.time()
    105         # 计算下载耗时
    106         print(f'33[32m下载   {dict["name"]}完成---------耗时:{int(end_time - start_time)}秒钟!')
    107 
    108 
    109 # 获取video_list视频列表的长度,根据列表长度开启对应的多线程
    110 viedeo_total = len(video_list)
    111 # 定义线程池,传入列表长度
    112 pool = Pool(viedeo_total)
    113 # 传入get_video_data函数和可迭代对象video_list
    114 pool.map(get_video_data, video_list)
    115 print()
    116 print(f'33[31m 下载所有文件完成!文件存放路径为:./mp4')
     
    
  • 相关阅读:
    翻译:让网络更快一些——最小化浏览器中的回流(reflow)
    ArcGIS API for flex 3.1离线文档
    innerHeight与clientHeight、innerWidth与clientWidth
    在Excel2010中输入身份证号
    JavaScript window.location对象
    Apache2.2+php5.2+the requested operation has failed
    Js中的window.parent ,window.top,window.self
    Mongoose 3.0 executable does not start
    Download ActionScript 3 reference files as a single zipActionScript 3 下载
    Flex 4.6 API 离线文档
  • 原文地址:https://www.cnblogs.com/merryblogs/p/14306409.html
Copyright © 2011-2022 走看看