zoukankan      html  css  js  c++  java
  • 大数据应用期末总评

    本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

    一、课程评分标准:

    分数组成:

    考勤 10

    平时作业 30

    爬虫大作业 25

    Hadoop生态安装与配置 10

    分布式文件系统HDFS

    分布式并行计算MapReduce

    Hadoop综合大作业 25

     评分标准:

    难易程度

    数据量

    文章质量:描述、分析与总结

    二、17周演示检查:《爬虫大作业》和《Hadoop综合大作业

    三、Hadoop综合大作业 要求:

    由于爬虫大作业我没有生成CSV文件,所以在Hadoop大作业中做2012年-2017年期间的四六级考试试卷中出现单词的统计。

    1.将爬虫大作业产生的csv文件上传到HDFS

     

    2.对CSV文件进行预处理生成无标题文本文件

    配置.sh文件

    3.把hdfs中的文本文件最终导入到数据仓库Hive中

     

    4.在Hive中查看并分析数据

    创建hive数据库:

    5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

    1)查看全部单词个数:

    2)查询出现最多的单词及其中文意思

    3)查询单词次数出现频率超过400次的单词以及中文意思:

     4)查询单词出现次数最少的10个单词及中文意思

     

    5)单词出现次数为3的个数:

    6)查询单词次数出现前10个:

    7)查询所有单词中含名词n.的个数:

    8)查询所有单词中动词vi的个数:

    9)查询所有单词中形容词adj的个数:

     

    10)查询所有单词中副词adv.的个数:

    分析:根据对数据库的操作可以看出近几年四六级试卷中单词出现的频率统计,以及出现单词的个数;从分析得到出现最多的单词是more,最少出现的单词至少为3次。

    名词的出现次数为:2180个。

    四、材料提交方式及日期

      1. 每人提交一个文件夹,以学号姓名命名
      2. 个人文件夹里包含三个作业的材料:
        1. 代码
        2. 结果
        3. 博客文章
      3. 请在2019/06/21 日期之前提交给学委
      4. 学委收齐后,整理刻录一张光盘交给老师。
        1. 空白光盘可找老师领取
        2. 建一个班级文件夹,里面放一个一个同学的文件夹,都不要压缩                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              
  • 相关阅读:
    /、./和../的区别
    【Java基础】-- FileUtils工具类常用方法
    【数据库】-- MySQL中比like更高效的三个写法
    【Java框架】-- SpringBoot大文件RestTemplate下载解决方案
    记一次gitlab代码仓清空还原复盘
    聊聊如何实现一个带有拦截器功能的SPI
    聊聊如何实现一个支持键值对的SPI
    类实例对象的class类型却不属于该类,何解?
    exe打包成安装文件(界面美观)
    linux系统软件启动sh脚本
  • 原文地址:https://www.cnblogs.com/ShaoJingWen/p/11055594.html
Copyright © 2011-2022 走看看