zoukankan      html  css  js  c++  java
  • 用Hive构建数据仓库与业务分析

    关于Hive

    Hive简介

    Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。
    Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并
    提供类 SQL 查询功能。

    Hive 本质:将 HQL 转化成 MapReduce 程序

    (1)Hive 处理的数据存储在 HDFS
    (2)Hive 分析数据底层的实现是 MapReduce
    (3)执行程序运行在 Yarn 上

    创建仓库

    需要准备的表
    创建原始数据表:gulivideo_ori,gulivideo_user_ori,
    创建最终表:gulivideo_orc,gulivideo_user_orc

    准备数据

    上传数据

    导入视频数据

    load data local inpath "/opt/hive/video" into table gulivideo_ori;
    

    导入用户数据

    load data local inpath "/opt/hive/user" into table gulivideo_user_ori;
    

    把原始表数据导入最终表

    insert into table gulivideo_orc select * from gulivideo_ori;
    insert into table gulivideo_user_orc select * from gulivideo_user_ori;
    

    上传成功

    分析数据

    统计视频观看数 Top10

    SELECT 
     videoId,
     views
    FROM 
     gulivideo_orc
    ORDER BY 
     views DESC
    LIMIT 10;
    

  • 相关阅读:
    5_添加购物车 View+Con
    5_添加购物车 B+M
    5_添加购物车 D
    登录注册V
    bootstrap-标题
    h5整理--详解css的相对定位和绝对定位
    各大门户网站的css初始化代码
    九月二十八JS验证
    js函数和运算符
    4.1原始表达式 9/16
  • 原文地址:https://www.cnblogs.com/huangjianping/p/15031985.html
Copyright © 2011-2022 走看看