zoukankan      html  css  js  c++  java
  • 大数据应用期末总作业

    本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339


    Hadoop综合大作业 要求:

    1.将爬虫大作业产生的csv文件上传到HDFS

    此处选取的是爬虫大作业——豆瓣上排名前250的电影评价

    此处选取的是douban.csv文件,共计32829条数据。

    首先,在本地中创建一个/usr/local/bigdatacase/dataset 文件夹。 然后把douban250.csv文件复制到这个文件夹中,然后

    删除第一行记录以及 显示前五行记录 如下图所示:

    对CSV文件进行预处理生成无标题文本文件

    编辑pre_deal.sh文件对csv文件进行数据预处理,使得pre_deal.sh中的内容生效。如下图所示:

     

     查看user_table.txt里面的内容,如下图所示:

     

    将user_table.txt 存放在/usr/local/文件夹下赋予bigdatacase权限 如下图所示:

    接着,启动hadoop, 在HDFS上建立/bigdatacase/dataset文件夹

    并且把user_table.txt上传到HDFS中 步骤如下:

     查看HDFS中的User_table.txt的前10条记录,如下图所示:

    启动MySQL数据库、启动Hadoop、启动Hive,进入命令行 在Hive中创建一个数据库dblab,如下图所示:

     创建外部表,把HDFS中的 /bigdatacase/dataset 目录下的数据加载到Hive仓库中,

    并且显示 bigdata_user 前十条数据. 如下图所示:

     

      查询前10位豆瓣用户对电影的评分, 如下图所示:

    查询电影评分为9分 的用户对电影的评价。 如下图所示:

    查看豆瓣中电影评分小于8分的电影 如下图所示:

    查看豆瓣中电影评分少于8分的电影的文字评价。如下图所示:

     总结:通过这学期的学习我对Hadoop的 mapreduce还有hdfs文件系统有了更加深层次的理解,也对hive的创建数据库、

    结构化查询的功能更加深入了解。 更加学习了python.明白了这门课程的真正用途,这学期的课学到了很多新的知识,也

    复习了以前的知识,让我对计算机有了更加深层次的理解!

  • 相关阅读:
    fstat、stat和lstat 区别
    listen()函数中的SOMAXCONN含义
    #ifndef#define#endif的用法(整理)
    stdin和STDIN_FILENO的区别(转)
    S_ISREG等几个常见的宏
    *_t 数据类型
    IO模式精细讲解: MSG_DONTWAIT 、 MSG_WAITALL
    c标准函数库(查阅使用)
    stdint.h
    C# RichTextBox控件常用屬性和事件
  • 原文地址:https://www.cnblogs.com/lb2016/p/11020622.html
Copyright © 2011-2022 走看看