zoukankan html css js c++ java

教你用20行代码爬取直播平台弹幕（附源码）

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看

https://space.bilibili.com/523606542

基本开发环境

Python 3.6
Pycharm

相关模块的使用

import requests

斗鱼直播视频弹幕爬取分析

斗鱼就选择<一条小团团>的直播视频，毕竟大主播弹幕发送会多一些。

复制其中一条弹幕，复制在开发者工具当中进行搜索。就可以看到相对应的弹幕数据。

一个url地址，是包含了500条弹幕数据。

url地址有三个参数：

vid：视频ID （不改变的）

start_time：视频开始的时间

end_time：不改变的

前500条弹幕数据开始的时间是0，就是从视频最开始的时候，下一个开始的时候是可以在数据中找到的。

end_time：500条弹幕数据结束的时间，那不就是下一次弹幕数据开始的时间嘛。

最后一次的弹幕url地址：end_time：-1 ，所以给一个判断跳出循环即可。

完整实现代码

import requests
url = 'https://v.douyu.com/wgapi/vod/center/getBarrageList?vid=Bjq4MeYNqLxM5Ea8&start_time=0&end_time=-1'
while True:
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    html_data = response.json()
    next_time = html_data['data']['end_time']
    lis = html_data['data']['list']
    for li in lis:
        barrage = li['ctt']
        with open('dy弹幕.txt', mode='a', encoding='utf-8') as f:
            f.write(barrage)
            f.write('
')
            print(barrage)
    url = f'https://v.douyu.com/wgapi/vod/center/getBarrageList?vid=Bjq4MeYNqLxM5Ea8&start_time={next_time}&end_time=-1'
    if next_time == -1:
        break

总计弹幕数量：8627

词云效果

虎牙直播视频弹幕爬取分析

主播那肯定是选择<永远滴神>

分析思路和斗鱼弹幕是一样的。

url地址有4个参数：

callback：可以不添加，不添加可以直接取json数据，添加之后就是字符串

vid：视频ID （不改变的）

beginTime：视频开始的时间

_：时间戳

下次开始的时间在数据接口中同样有。

完整实现代码

import requests
import time
now_time = int(time.time() * 1000)
url = f'https://cxt.huya.com/open/danmu/timelist.do?vid=431927895&beginTime=0&_={now_time}'
while True:
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    html_data = response.json()
    if html_data:
        nextBeginTime = html_data['nextBeginTime']
        lis = html_data['list']
        for li in lis:
            barrage = li['text']
            with open('hy弹幕.txt', mode='a', encoding='utf-8') as f:
                f.write(barrage)
                f.write('
')
        url = f'https://cxt.huya.com/open/danmu/timelist.do?vid=431927895&beginTime={nextBeginTime}&_={now_time}'
        print(nextBeginTime)
    else:
        break

总计弹幕数量：1280

词云效果

查看全文

相关阅读:
拳击游戏（虚函数应用）
虚函数的使用
 继承中的二义性归属问题
 继承的作用以及在子类中初始化所有数据的方法
 Exploring ES2016 Decorators
Storage information for PWA application
浏览器中常见网络协议介绍
 vuex所有核心概念完整解析State Getters Mutations Actions
搭建一个webpack微服务器
 nodeJS接入微信公众平台开发

原文地址：https://www.cnblogs.com/hhh188764/p/14272707.html