zoukankan      html  css  js  c++  java
  • Hive实战(5):完整案例(一)准备

    1 需求描述

    统计硅谷影音视频网站的常规指标,各种 TopN 指标:
    -- 统计视频观看数 Top10
    -- 统计视频类别热度 Top10
    -- 统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数
    -- 统计视频观看数 Top50 所关联视频的所属类别排序
    -- 统计每个类别中的视频热度 Top10,以 Music 为例
    -- 统计每个类别视频观看数 Top10
    -- 统计上传视频最多的用户 Top10 以及他们上传的视频观看次数在前 20 的视频

    2 数据结构

    1)视频表
    2)用户表

    3 准备工作

    3.1 准备表
    1)需要准备的表
    创建原始数据表:gulivideo_ori,gulivideo_user_ori,
    创建最终表:gulivideo_orc,gulivideo_user_orc
    2)创建原始数据表:
    (1)gulivideo_ori
    create table gulivideo_ori(
     videoId string, 
     uploader string, 
     age int, 
     category array<string>, 
     length int, 
     views int, 
     rate float, 
     ratings int, 
     comments int,
     relatedId array<string>)
    row format delimited fields terminated by "	"
    collection items terminated by "&"
    stored as textfile;
    (2)创建原始数据表: gulivideo_user_ori
    create table gulivideo_user_ori(
     uploader string,
     videos int,
     friends int)
    row format delimited 
    fields terminated by "	" 
    stored as textfile;
    2)创建 orc 存储格式带 snappy 压缩的表:
    (1)gulivideo_orc
    create table gulivideo_orc(
     videoId string, 
     uploader string, 
     age int, 
     category array<string>, 
     length int, 
     views int, 
     rate float, 
     ratings int, 
     comments int,
     relatedId array<string>)
    stored as orc
    tblproperties("orc.compress"="SNAPPY");
    (2)gulivideo_user_orc
    create table gulivideo_user_orc(
     uploader string,
     videos int,
     friends int)
    row format delimited 
    fields terminated by "	" 
    stored as orc
    tblproperties("orc.compress"="SNAPPY");
    (3)向 ori 表插入数据
    load data local inpath "/opt/module/data/video" into table gulivideo_ori;
    load data local inpath "/opt/module/user" into table gulivideo_user_ori;
    (4)向 orc 表插入数据
    insert into table gulivideo_orc select * from gulivideo_ori;
    insert into table gulivideo_user_orc select * from gulivideo_user_ori;
    3.2 安装 Tez 引擎(了解)
     
  • 相关阅读:
    java基础-集合笔记
    Spring工具类
    XStream的基本使用
    java之路径问题
    Vue 动态组件渲染问题分析
    watch案例解析(element-ui el-select 无法选中问题剖析)
    v-if案例解析(element-ui form-item 结合 v-if 动态生成rule规则表单元素,表单无法验证问题剖析 )
    Vue 虚拟Dom 及 部分生命周期初探
    Android仿苹果版QQ下拉刷新实现(二) ——贝塞尔曲线开发"鼻涕"下拉粘连效果
    AngularJs(SPA)单页面SEO以及百度统计应用(下)
  • 原文地址:https://www.cnblogs.com/qiu-hua/p/14878017.html
Copyright © 2011-2022 走看看