zoukankan html css js c++ java

爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

01前言

上一篇文章以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』利用了scrapy爬取B站数据。本文将在此基础上完善代码，爬起更多的内容并保存到csv。

总共爬取1907条『课程学习』数据，分析哪类学习资源最火热最受大学生群体青睐。并通过可视化的方式将结果进行展示！

02数据获取

程序是接着以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』进行完善，所以不清楚的可以先看一下这篇文章（详细讲述Scrapy入门，并以『B站』为案例进行实战编程）

1.各个scrapy文件

items文件

class BiliItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #pass
    # 视频标题
    title = scrapy.Field()
    # 链接
    url = scrapy.Field()
    # 观看量
    watchnum = scrapy.Field()
    # 弹幕数
    dm = scrapy.Field()
    # 上传时间
    uptime = scrapy.Field()
    # 作者
    upname = scrapy.Field()

增加了四个字段（观看量、弹幕数、上传时间、作者）

lyc文件

class LycSpider(scrapy.Spider):
    name = 'lyc'
    allowed_domains = ['bilibili.com']
    start_urls = ['https://search.bilibili.com/all?keyword=大学课程&page=40']


    # 爬取的方法
    def parse(self, response):
        item = BiliItem()
        # 匹配
        for jobs_primary in response.xpath('//*[@id="all-list"]/div[1]/ul/li'):
            item['title'] = (jobs_primary.xpath('./a/@title').extract())[0]
            item['url'] = (jobs_primary.xpath('./a/@href').extract())[0]
            item['watchnum'] = (jobs_primary.xpath('./div/div[3]/span[1]/text()').extract())[0].replace("
", "").replace(" ", "")
            item['dm'] = (jobs_primary.xpath('./div/div[3]/span[2]/text()').extract())[0].replace("
", "").replace(" ", "")
            item['uptime'] = (jobs_primary.xpath('./div/div[3]/span[3]/text()').extract())[0].replace("
", "").replace(" ", "")
            item['upname'] = (jobs_primary.xpath('./div/div[3]/span[4]/a/text()').extract())[0]




            # 不能使用return
            yield item


        # 获取当前页的链接
        url = response.request.url
        #page +1


        new_link = url[0:-1]+str(int(url[-1])+1)
        # 再次发送请求获取下一页数据
        yield scrapy.Request(new_link, callback=self.parse)

为新增的四个字段进行网页标签解析

pipelines文件

import csv


class BiliPipeline:


    def __init__(self):
        #打开文件，指定方式为写，利用第3个参数把csv写数据时产生的空行消除
        self.f = open("lyc大学课程.csv", "a", newline="")
        # 设置文件第一行的字段名，注意要跟spider传过来的字典key名称相同
        self.fieldnames = ["title", "url","watchnum","dm","uptime","upname"]
        # 指定文件的写入方式为csv字典写入，参数1为指定具体文件，参数2为指定字段名
        self.writer = csv.DictWriter(self.f, fieldnames=self.fieldnames)
        # 写入第一行字段名，因为只要写入一次，所以文件放在__init__里面
        self.writer.writeheader()


    def process_item(self, item, spider):
        # print("title:", item['title'][0])
        # print("url:", item['url'][0])
        # print("watchnum:", item['watchnum'][0].replace("
","").replace(" ",""))
        # print("dm:", item['dm'][0].replace("
", "").replace(" ", ""))
        # print("uptime:", item['uptime'][0].replace("
", "").replace(" ", ""))
        # print("upname:", item['upname'][0])


        print("title:", item['title'])
        print("url:", item['url'])
        print("watchnum:", item['watchnum'])
        print("dm:", item['dm'])
        print("uptime:", item['uptime'])
        print("upname:", item['upname'])




        # 写入spider传过来的具体数值
        self.writer.writerow(item)
        # 写入完返回
        return item


    def close(self, spider):
        self.f.close()

将爬取的内容保存到csv文件（lyc大学课程.csv）

2.启动scrapy

scrapy crawl lyc

通过上述命令可以启动scrapy项目

3.爬取结果

一共爬取1914条数据，最后经过简单清洗最终可用数据1907条！

03数据分析

1.大学生学习视频播放量排名

读取数据

dataset  = pd.read_csv('Bili\lyc大学课程.csv',encoding="gbk")
title = dataset['title'].tolist()
url = dataset['url'].tolist()
watchnum = dataset['watchnum'].tolist()
dm = dataset['dm'].tolist()
uptime = dataset['uptime'].tolist()
upname = dataset['upname'].tolist()

数据处理

#分析1:  & 分析2
def getdata1_2():
    watchnum_dict = {}
    dm_dict = {}
    for i in range(0, len(watchnum)):
        if "万" in watchnum[i]:
            watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)
        else:
            watchnum[i] = int(watchnum[i])


        if "万" in dm[i]:
            dm[i] = int(float(dm[i].replace("万", "")) * 10000)
        else:
            dm[i] = int(dm[i])


        watchnum_dict[title[i]] = watchnum[i]
        dm_dict[title[i]] = dm[i]


    ###从小到大排序
    watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))
    dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))
    #分析1：大学生学习视频播放量排名"
    analysis1(watchnum_dict,"大学生学习视频播放量排名")

数据可视化

def pie(name,value,picname,tips):
    c = (
        Pie()
            .add(
            "",
            [list(z) for z in zip(name, value)],
            # 饼图的中心（圆心）坐标，数组的第一项是横坐标，第二项是纵坐标
            # 默认设置成百分比，设置成百分比时第一项是相对于容器宽度，第二项是相对于容器高度
            center=["35%", "50%"],
        )
            .set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"])  # 设置颜色
            .set_global_opts(
            title_opts=opts.TitleOpts(title=""+str(tips)),
            legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"),  # 调整图例位置
        )
            .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
            .render(str(picname)+".html")
    )

分析

【片片】《人间课堂》播放量最高，播放量:202万。
在B站从大学课程的内容学习吸引人远不上一些课堂内容有趣的话题。

2.大学生学习视频弹幕量排名

数据处理

watchnum_dict = {}
dm_dict = {}
for i in range(0, len(watchnum)):
    if "万" in watchnum[i]:
        watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)
    else:
        watchnum[i] = int(watchnum[i])


    if "万" in dm[i]:
        dm[i] = int(float(dm[i].replace("万", "")) * 10000)
    else:
        dm[i] = int(dm[i])


    watchnum_dict[title[i]] = watchnum[i]
    dm_dict[title[i]] = dm[i]


###从小到大排序
watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))
    dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))
#分析2：大学生学习视频弹幕量排名
analysis1(dm_dict,"大学生学习视频弹幕量排名")

数据可视化

###饼状图
def pie(name,value,picname,tips):
    c = (
        Pie()
            .add(
            "",
            [list(z) for z in zip(name, value)],
            # 饼图的中心（圆心）坐标，数组的第一项是横坐标，第二项是纵坐标
            # 默认设置成百分比，设置成百分比时第一项是相对于容器宽度，第二项是相对于容器高度
            center=["35%", "50%"],
        )
            .set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"])  # 设置颜色
            .set_global_opts(
            title_opts=opts.TitleOpts(title=""+str(tips)),
            legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"),  # 调整图例位置
        )
            .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
            .render(str(picname)+".html")
    )

分析

在弹幕数排行中《数据结构与算法基础》最高，弹幕数：33000
通过弹幕量的排行来看，可以看到大家都喜欢在什么样的课堂视频上留言。
与播放量对比，大学生喜欢在课堂内容学习视频上进行发言！

3.up主大学生学习视频视频数

数据处理

#分析3: up主大学生学习视频视频数
def getdata3():
    upname_dict = {}
    for key in upname:
        upname_dict[key] = upname_dict.get(key, 0) + 1
        ###从小到大排序
    upname_dict = sorted(upname_dict.items(), key=lambda kv: (kv[1], kv[0]))
    itemNames = []
    datas = []
    for i in range(len(upname_dict) - 1, len(upname_dict) - 21, -1):
        itemNames.append(upname_dict[i][0])
        datas.append(upname_dict[i][1])
    #绘图
    bars(itemNames,datas)

数据可视化

###柱形图
def bars(name,dict_values):


    # 链式调用
    c = (
        Bar(
            init_opts=opts.InitOpts(  # 初始配置项
                theme=ThemeType.MACARONS,
                animation_opts=opts.AnimationOpts(
                    animation_delay=1000, animation_easing="cubicOut"  # 初始动画延迟和缓动效果
                ))
        )
            .add_xaxis(xaxis_data=name)  # x轴
            .add_yaxis(series_name="up主昵称", yaxis_data=dict_values)  # y轴
            .set_global_opts(
            title_opts=opts.TitleOpts(title='李运辰', subtitle='up视频数',  # 标题配置和调整位置
                                      title_textstyle_opts=opts.TextStyleOpts(
                                          font_family='SimHei', font_size=25, font_weight='bold', color='red',
                                      ), pos_left="90%", pos_top="10",
                                      ),
            xaxis_opts=opts.AxisOpts(name='up主昵称', axislabel_opts=opts.LabelOpts(rotate=45)),
            # 设置x名称和Label rotate解决标签名字过长使用
            yaxis_opts=opts.AxisOpts(name='大学生学习视频视频数'),


        )
            .render("up主大学生学习视频视频数.html")
    )

分析

在大学课程视频的up主中，up主视频中与大学课堂有关的视频数排行
在大学课程视频数排行中，视频数最多的是：小白在学习呢

4.大学课程名称词云化

数据处理

text = "".join(title)
with open("stopword.txt","r", encoding='UTF-8') as f:
    stopword = f.readlines()
for i in stopword:
    print(i)
    i = str(i).replace("
","").replace("
","").replace("
","")
    text = text.replace(i, "")

数据可视化

word_list = jieba.cut(text)
result = " ".join(word_list)  # 分词用 隔开
# 制作中文云词
icon_name = 'fab fa-qq'
"""
# icon_name='',#国旗
# icon_name='fas fa-dragon',#翼龙
icon_name='fas fa-dog',#狗
# icon_name='fas fa-cat',#猫
# icon_name='fas fa-dove',#鸽子
# icon_name='fab fa-qq',#qq
"""
gen_stylecloud(text=result, icon_name=icon_name, font_path='simsun.ttc', output_name="大学课程名称词云化.png")  # 必须加中文字体，否则格式错误

分析

以北京大学和清华大学的课程为主，课程标题含有着两个大学的居多。
这些视频标题中大多数以：基础、公开课、课件、考研、大学物理等关键词。

04总结

1.通过Scrapy框架爬取1907条『B站』大学课程学习资源数据。

2.对数据进行可视化展示以及凝练精简分析。

3.可能数据还有更多未分析或者挖掘的信息，欢迎在下方留言，提出你宝贵的建议！

4.本文数据和代码在下方，欢迎自取！！！

如果大家对本文代码源码感兴趣，扫码关注『Python爬虫数据分析挖掘』后台回复：大学课程分析 ，获取完整代码和数据。

------------- 推荐文章 -------------

1·以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』

2.python爬取各类基金数据，以『动图可视化』方式展示基金的涨跌情况

3.python爬取『大年初一』热映电影，以『可视化及词云秀』方式带你了解热映电影

4.爬虫遇到反爬机制怎么办? 看看我是如何解决的！

耐得住寂寞，才能登得顶
Gitee码云：https://gitee.com/lyc96/projects

查看全文

相关阅读:
phpmyadmin和网页上面的乱码问题
 整理: Android HAL
warning: deprecated conversion from string constant to ‘char*’ [-Wwrite-strings]-给char* 形参传入宏定义字符串
 ubuntu 输入法莫名其妙变繁体
 linux内核版本号添加字符/为何有时会自动添加“+”号以及怎么去掉
 Unable to handle kernel NULL pointer dereference at virtual address 00000000
Ubuntu 18.04 安装 Samba 服务器及配置
 linux查看版本信息
 图解：电压掉电监测电路如何实现检测工作？
精密全波整流+一阶RC滤波器检测市电电压

原文地址：https://www.cnblogs.com/chenlove/p/14496530.html