zoukankan      html  css  js  c++  java
  • 大数据应用期末总评

    作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

    1.将爬虫大作业产生的csv文件上传到HDFS

    • 启动hadoop服务
    • 在HDFS中创建/bigdatacase/dataset 文件夹 ,将文件上传到HDFS,用于存放成绩表 chengji.txt

    2.对CSV文件进行预处理生成无标题文本文件

    • 查看score.csv数据文件
    • 生成pre_deal.sh1文件,为每行记录增加一个id字段(让记录具有唯一性)
    • 对文件进行预处理,并查看处理结果

    3.把hdfs中的文本文件最终导入到数据仓库Hive中

    • 启动mysql服务
    • 启动hive ,创建数据库bd_s
    • 创建数据库表(id,时间,学期,编号,课程名,课程属性,绩点,成绩分数,所属学院)
    •  查询表中前十条数据,验证数据库是否有数据

    4.在Hive中查看并分析数据

      1)依学年时间,统计有多少(成绩)数据,大三下学期数据不在内

    • 依照课程属性进行区分,并统计
    •  
    • 依照课程属性,查询某一年的课程总数

        结果分析:学院较注重学生专业素质的培训,与基础知识课程,公共课程全方面发展的学习规划,从大一(2016-2017学年)可看出,高等数学英语等文化课程较多,而专业实践课较少,随着时间推移,学院的重心在于学生的实践培养,几乎没有基础选修的课程,目的在于学生面向社会的发展和技能的提升。

         2)依学年时间,统计有多少(成绩)数据,大三下学期数据不在内

    • 依成绩进行降序显示其课程名与分数
    • 查询成绩挂科现象,即成绩小于60,显示结果为0
    • 统计2018-2019年的平均绩点
    • 分组统计全学年度的平均绩点

         结果分析:从数据可见,每学年度的绩点有小幅度增长的,从大一,到大三第一学期,从2.60到3.12,每次增长幅度为0.25-0.3,稳定发展。总的来说,专业成绩明显优势,体育活动亦有较好的发展,基本课程则明显弱势,由于学生的普遍认为,只要注重专业成绩,平时的基本文化课程没什么用处,受到这个观念的影响下,才会有了这样的发展。

  • 相关阅读:
    实现一个电话号码生成器
    SQL查询--关于查询的练习题
    SQL查询--内连接、外连接、自连接查询
    SQL查询--约束
    SQL查询--索引
    SQL查询--简单了解SQL(结构化查询语言)
    使用python做一个爬虫GUI程序
    postman(十二):发送携带md5签名、随机数等参数的请求
    对比3种接口测试的工具:jmeter+ant;postman;python的requests+unittest或requests+excel
    (四十八)c#Winform自定义控件-下拉按钮-HZHControls
  • 原文地址:https://www.cnblogs.com/yuanzhenpeng/p/11058016.html
Copyright © 2011-2022 走看看