zoukankan      html  css  js  c++  java
  • 大数据应用期末总评

    1.将爬虫大作业产生的csv文件上传到HDFS

    一、建立一个运行本案例的目录database,data并查看是否创建成功

    二、将本地文件csv上传到HDFS并查看是否上传成功

    三、查看文件:

    2.对CSV文件进行预处理生成无标题文本文件二、预处理文件,将csv生成txt文件:

    一、预处理文件,将csv生成txt文件:

     

    3.把hdfs中的文本文件最终导入到数据仓库Hive中

    一、启动hdfs:

    二、查看是否上传成功,本文件为ddd.txt

    三、启动数据库:

    四、在hive中创建数据库dbhhh:

    五、使用dbhhh数据库创建表格命名为ddd

    4.在Hive中查看并分析数据

    一、在hive中查看数据,查找表的前10条记录:

     二、筛选评论数量较多的标题,查看人们比较关心的热门问题

     

    三、筛选结合阅读量较高的标题

    筛选结合阅读量和评论量,可以得到人们感兴趣的人们话题为东兴证券的各类资金问题较感兴趣

    5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

  • 相关阅读:
    Linux GNOME桌面使用技巧大全
    联想旭日 C465A 开机白屏
    基础知识:编程的工作机制
    JavaCC 学习笔记
    笨办法学R编程(1)
    一些学习方法总结
    使用变量表示字、数字和值
    栈溢出2017doubly_dangerous
    栈溢出warmup_csaw_2016
    基础学习ret2text
  • 原文地址:https://www.cnblogs.com/shang1680/p/11062221.html
Copyright © 2011-2022 走看看