zoukankan      html  css  js  c++  java
  • 爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐

    01前言

    上一篇文章以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』利用了scrapy爬取B站数据。本文将在此基础上完善代码,爬起更多的内容并保存到csv。

    总共爬取1907条『课程学习』数据,分析哪类学习资源最火热最受大学生群体青睐。并通过可视化的方式将结果进行展示!

    02数据获取

    程序是接着以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』进行完善,所以不清楚的可以先看一下这篇文章(详细讲述Scrapy入门,并以『B站』为案例进行实战编程)

    1.各个scrapy文件

    items文件

    class BiliItem(scrapy.Item):
        # define the fields for your item here like:
        # name = scrapy.Field()
        #pass
        # 视频标题
        title = scrapy.Field()
        # 链接
        url = scrapy.Field()
        # 观看量
        watchnum = scrapy.Field()
        # 弹幕数
        dm = scrapy.Field()
        # 上传时间
        uptime = scrapy.Field()
        # 作者
        upname = scrapy.Field()
    

    增加了四个字段(观看量、弹幕数、上传时间、作者)

    lyc文件

    class LycSpider(scrapy.Spider):
        name = 'lyc'
        allowed_domains = ['bilibili.com']
        start_urls = ['https://search.bilibili.com/all?keyword=大学课程&page=40']
    
    
        # 爬取的方法
        def parse(self, response):
            item = BiliItem()
            # 匹配
            for jobs_primary in response.xpath('//*[@id="all-list"]/div[1]/ul/li'):
                item['title'] = (jobs_primary.xpath('./a/@title').extract())[0]
                item['url'] = (jobs_primary.xpath('./a/@href').extract())[0]
                item['watchnum'] = (jobs_primary.xpath('./div/div[3]/span[1]/text()').extract())[0].replace("
    ", "").replace(" ", "")
                item['dm'] = (jobs_primary.xpath('./div/div[3]/span[2]/text()').extract())[0].replace("
    ", "").replace(" ", "")
                item['uptime'] = (jobs_primary.xpath('./div/div[3]/span[3]/text()').extract())[0].replace("
    ", "").replace(" ", "")
                item['upname'] = (jobs_primary.xpath('./div/div[3]/span[4]/a/text()').extract())[0]
    
    
    
    
                # 不能使用return
                yield item
    
    
            # 获取当前页的链接
            url = response.request.url
            #page +1
    
    
            new_link = url[0:-1]+str(int(url[-1])+1)
            # 再次发送请求获取下一页数据
            yield scrapy.Request(new_link, callback=self.parse)
    

    为新增的四个字段进行网页标签解析

    pipelines文件

    import csv
    
    
    class BiliPipeline:
    
    
        def __init__(self):
            #打开文件,指定方式为写,利用第3个参数把csv写数据时产生的空行消除
            self.f = open("lyc大学课程.csv", "a", newline="")
            # 设置文件第一行的字段名,注意要跟spider传过来的字典key名称相同
            self.fieldnames = ["title", "url","watchnum","dm","uptime","upname"]
            # 指定文件的写入方式为csv字典写入,参数1为指定具体文件,参数2为指定字段名
            self.writer = csv.DictWriter(self.f, fieldnames=self.fieldnames)
            # 写入第一行字段名,因为只要写入一次,所以文件放在__init__里面
            self.writer.writeheader()
    
    
        def process_item(self, item, spider):
            # print("title:", item['title'][0])
            # print("url:", item['url'][0])
            # print("watchnum:", item['watchnum'][0].replace("
    ","").replace(" ",""))
            # print("dm:", item['dm'][0].replace("
    ", "").replace(" ", ""))
            # print("uptime:", item['uptime'][0].replace("
    ", "").replace(" ", ""))
            # print("upname:", item['upname'][0])
    
    
            print("title:", item['title'])
            print("url:", item['url'])
            print("watchnum:", item['watchnum'])
            print("dm:", item['dm'])
            print("uptime:", item['uptime'])
            print("upname:", item['upname'])
    
    
    
    
            # 写入spider传过来的具体数值
            self.writer.writerow(item)
            # 写入完返回
            return item
    
    
        def close(self, spider):
            self.f.close()
    

    将爬取的内容保存到csv文件(lyc大学课程.csv)

    2.启动scrapy

    scrapy crawl lyc
    

    通过上述命令可以启动scrapy项目

    3.爬取结果

    一共爬取1914条数据,最后经过简单清洗最终可用数据1907条!

    03数据分析

    1.大学生学习视频播放量排名

    读取数据

    dataset  = pd.read_csv('Bili\lyc大学课程.csv',encoding="gbk")
    title = dataset['title'].tolist()
    url = dataset['url'].tolist()
    watchnum = dataset['watchnum'].tolist()
    dm = dataset['dm'].tolist()
    uptime = dataset['uptime'].tolist()
    upname = dataset['upname'].tolist()
    

    数据处理

    #分析1:  & 分析2
    def getdata1_2():
        watchnum_dict = {}
        dm_dict = {}
        for i in range(0, len(watchnum)):
            if "万" in watchnum[i]:
                watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)
            else:
                watchnum[i] = int(watchnum[i])
    
    
            if "万" in dm[i]:
                dm[i] = int(float(dm[i].replace("万", "")) * 10000)
            else:
                dm[i] = int(dm[i])
    
    
            watchnum_dict[title[i]] = watchnum[i]
            dm_dict[title[i]] = dm[i]
    
    
        ###从小到大排序
        watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))
        dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))
        #分析1:大学生学习视频播放量排名"
        analysis1(watchnum_dict,"大学生学习视频播放量排名")
    

    数据可视化

    def pie(name,value,picname,tips):
        c = (
            Pie()
                .add(
                "",
                [list(z) for z in zip(name, value)],
                # 饼图的中心(圆心)坐标,数组的第一项是横坐标,第二项是纵坐标
                # 默认设置成百分比,设置成百分比时第一项是相对于容器宽度,第二项是相对于容器高度
                center=["35%", "50%"],
            )
                .set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"])  # 设置颜色
                .set_global_opts(
                title_opts=opts.TitleOpts(title=""+str(tips)),
                legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"),  # 调整图例位置
            )
                .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
                .render(str(picname)+".html")
        )
    

    分析

    1. 【片片】《人间课堂》播放量最高,播放量:202万。

    2. 在B站从大学课程的内容学习吸引人远不上一些课堂内容有趣的话题。

    2.大学生学习视频弹幕量排名

    数据处理

    watchnum_dict = {}
    dm_dict = {}
    for i in range(0, len(watchnum)):
        if "万" in watchnum[i]:
            watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)
        else:
            watchnum[i] = int(watchnum[i])
    
    
        if "万" in dm[i]:
            dm[i] = int(float(dm[i].replace("万", "")) * 10000)
        else:
            dm[i] = int(dm[i])
    
    
        watchnum_dict[title[i]] = watchnum[i]
        dm_dict[title[i]] = dm[i]
    
    
    ###从小到大排序
    watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))
        dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))
    #分析2:大学生学习视频弹幕量排名
    analysis1(dm_dict,"大学生学习视频弹幕量排名")
    

    数据可视化

    ###饼状图
    def pie(name,value,picname,tips):
        c = (
            Pie()
                .add(
                "",
                [list(z) for z in zip(name, value)],
                # 饼图的中心(圆心)坐标,数组的第一项是横坐标,第二项是纵坐标
                # 默认设置成百分比,设置成百分比时第一项是相对于容器宽度,第二项是相对于容器高度
                center=["35%", "50%"],
            )
                .set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"])  # 设置颜色
                .set_global_opts(
                title_opts=opts.TitleOpts(title=""+str(tips)),
                legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"),  # 调整图例位置
            )
                .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
                .render(str(picname)+".html")
        )
    

    分析

    1. 在弹幕数排行中《数据结构与算法基础》最高,弹幕数:33000

    2. 通过弹幕量的排行来看,可以看到大家都喜欢在什么样的课堂视频上留言

    3. 与播放量对比,大学生喜欢在课堂内容学习视频上进行发言!

    3.up主大学生学习视频视频数

    数据处理

    #分析3: up主大学生学习视频视频数
    def getdata3():
        upname_dict = {}
        for key in upname:
            upname_dict[key] = upname_dict.get(key, 0) + 1
            ###从小到大排序
        upname_dict = sorted(upname_dict.items(), key=lambda kv: (kv[1], kv[0]))
        itemNames = []
        datas = []
        for i in range(len(upname_dict) - 1, len(upname_dict) - 21, -1):
            itemNames.append(upname_dict[i][0])
            datas.append(upname_dict[i][1])
        #绘图
        bars(itemNames,datas)
    

    数据可视化

    ###柱形图
    def bars(name,dict_values):
    
    
        # 链式调用
        c = (
            Bar(
                init_opts=opts.InitOpts(  # 初始配置项
                    theme=ThemeType.MACARONS,
                    animation_opts=opts.AnimationOpts(
                        animation_delay=1000, animation_easing="cubicOut"  # 初始动画延迟和缓动效果
                    ))
            )
                .add_xaxis(xaxis_data=name)  # x轴
                .add_yaxis(series_name="up主昵称", yaxis_data=dict_values)  # y轴
                .set_global_opts(
                title_opts=opts.TitleOpts(title='李运辰', subtitle='up视频数',  # 标题配置和调整位置
                                          title_textstyle_opts=opts.TextStyleOpts(
                                              font_family='SimHei', font_size=25, font_weight='bold', color='red',
                                          ), pos_left="90%", pos_top="10",
                                          ),
                xaxis_opts=opts.AxisOpts(name='up主昵称', axislabel_opts=opts.LabelOpts(rotate=45)),
                # 设置x名称和Label rotate解决标签名字过长使用
                yaxis_opts=opts.AxisOpts(name='大学生学习视频视频数'),
    
    
            )
                .render("up主大学生学习视频视频数.html")
        )
    

    分析

    1. 在大学课程视频的up主中,up主视频中与大学课堂有关的视频数排行

    2. 在大学课程视频数排行中,视频数最多的是:小白在学习呢

    4.大学课程名称词云化

    数据处理

    text = "".join(title)
    with open("stopword.txt","r", encoding='UTF-8') as f:
        stopword = f.readlines()
    for i in stopword:
        print(i)
        i = str(i).replace("
    ","").replace("
    ","").replace("
    ","")
        text = text.replace(i, "")
    

    数据可视化

    word_list = jieba.cut(text)
    result = " ".join(word_list)  # 分词用 隔开
    # 制作中文云词
    icon_name = 'fab fa-qq'
    """
    # icon_name='',#国旗
    # icon_name='fas fa-dragon',#翼龙
    icon_name='fas fa-dog',#狗
    # icon_name='fas fa-cat',#猫
    # icon_name='fas fa-dove',#鸽子
    # icon_name='fab fa-qq',#qq
    """
    gen_stylecloud(text=result, icon_name=icon_name, font_path='simsun.ttc', output_name="大学课程名称词云化.png")  # 必须加中文字体,否则格式错误
    

    分析

    1. 北京大学清华大学的课程为主,课程标题含有着两个大学的居多。

    2. 这些视频标题中大多数以:基础公开课课件考研大学物理等关键词。

    04总结

    1.通过Scrapy框架爬取1907条『B站』大学课程学习资源数据。

    2.对数据进行可视化展示以及凝练精简分析。

    3.可能数据还有更多未分析或者挖掘的信息,欢迎在下方留言,提出你宝贵的建议

    4.本文数据和代码在下方,欢迎自取!!!

    如果大家对本文代码源码感兴趣,扫码关注『Python爬虫数据分析挖掘』后台回复:大学课程分析 ,获取完整代码和数据。

    ------------- 推荐文章 -------------

    以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』


    2.python爬取各类基金数据,以『动图可视化』方式展示基金的涨跌情况


    3.python爬取『大年初一』热映电影,以『可视化及词云秀』方式带你了解热映电影


    4.爬虫遇到反爬机制怎么办? 看看我是如何解决的!

    耐得住寂寞,才能登得顶
    Gitee码云:https://gitee.com/lyc96/projects
  • 相关阅读:
    xml和json笔记
    Ajax开发技术介绍与实战练习
    MATLAB学习(4)——min
    MATLAB学习(2)——zeros
    MATLAB学习(1)——ordfilt2
    vim的基本命令
    VS2015 闪退问题
    Error (10028): Can't resolve multiple constant drivers for net "mydata[14]" at sd_read.v(207)
    自动识别设备
    Internal Error: Sub-system: CUT, File: /quartus/db/cut/cut_post_syn_util.cpp, Line: 709 name_to_atom_map[iname] == 0
  • 原文地址:https://www.cnblogs.com/chenlove/p/14496530.html
Copyright © 2011-2022 走看看