zoukankan      html  css  js  c++  java
  • 数据分析第一站!

    数据分析在现在大数据时代里,已经成为了不可或缺的一部分。以下介绍对《世界计算机科学技术专业排名前五的大学在顶尖期刊论文数》的简单的数据分析

    (数据来源:最好大学网)

    要先获得数据有两种方式:1.是直接从网站上下载下来,保存为一种文件,对文件进行读取分析,2.是使用爬虫在网络上爬取数据。在这里我使用的是第二种。

    引入爬虫和可视化的第三方库 

     获取近三年的数据的URL,建立两个空列表,分别存储大学名称和所占比例,cols为确定可视化的颜色,后面会用到!

    建立好爬虫的框架,这里不多解释,都做过爬虫大作业!

    检查网页的元素

     

     找到其标签的特殊点:class和style、id

    对网页的元素进行提取:

    将数据存储到分别建立的两个空列表中(只需要提取前5个)

    各个部分已经编写完毕,下面编写主函数 

     我采用数据可视化的方法是绘制饼状图

    startangle=90的意思是从90度的地方开始画第一条线

    shadow=True的意思是保留阴影

    explode的意思是控制某一块“饼”是否弹出,这里我不弹出,弹出来不太好看

    autopct的意思是建立化成百分数

    最后成果是(以2019年为例):

     反思:

    1.在完成这个大作业的时候,最难的部分在于寻找数据,找到了很多统计网站上面的数据,上面很多的数据并不是直接用HTML或者是CSS直接写在网页上的,有很多是直接已经可视化好了的,很不方便提取(也可能是自己水平不够),只好选择了一个简单一点的网站进行爬取和分析。

    2.这个分别分析了年份、大学排名和发表的论文数。

    3.在这个统计过程中我只统计了前五名大学的统计数据,可是这样是否可以反映出什么情况还有待商榷

    还有哪些提高:

    还可以形成如同地图一样的图表,并且各个国家的优秀大学数量(可惜我不会,流下没有技术的泪水o(╥﹏╥)o)

  • 相关阅读:
    高等数学(完结版)
    数据结构(c语言描述)
    leetcode-mid- 50. Pow(x,n)-NO
    leetcode-mid-math
    leetcode-mid-math-202. Happy Number-NO
    leetcode-mid-dynamic programming- Longest Increasing Subsequence-NO
    leetcode-mid-design-380. Insert Delete GetRandom O(1)
    leetcode-mid-design-297. Serialize and Deserialize Binary Tree¶-NO -??
    leetcode-mid-dynamic programming-322. Coin Change
    leetcode-mid-dynamic programming-62. Unique Paths
  • 原文地址:https://www.cnblogs.com/AhugeCat/p/12840064.html
Copyright © 2011-2022 走看看