zoukankan      html  css  js  c++  java
  • 课堂测试03

    1、数据导入:
    要求将样表文件中的(sales_sample_20170310)数据导入 HIVE 数据仓库中。

    先创建一个表

    Create table test2(day_id varchar(30), sale_nbr varchar(30), buy_nbr varchar(30), cnt varchar(30), round varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES

        (

            "separatorChar"=","

        )

    STORED AS TEXTFILE;

     

    然后将数据导入该表

    load data local inpath ‘/home/hadoop/test2.csv’ into table test2;

     

     

    2、数据清洗:
    要求将 day_id 一列中的数值清洗为真实的日期格式,可用字符串表示。
    数据 1 对应日期 2021-09-01,依次类推,15 对应日期 2021-09-15

    创建一个一样的表

    Create table test3(day_id varchar(30), sale_nbr varchar(30), buy_nbr varchar(30), cnt varchar(30), round varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES

        (

            "separatorChar"=","

        )

    STORED AS TEXTFILE;

    然后将清洗数据存储到该表

    insert overwrite table test3 select date_add('2021-8-31',cast(day_id AS INT)) as day_id,sale_nbr,buy_nbr,cnt,round from test2;

     

  • 相关阅读:
    poj 1035 (Spell checker )
    poj 3080 (暴力 strstr)
    kmp 模版
    匈牙利算法模版
    poj 1274 The Perfect Stall (最大匹配)
    hdu 1083 Courses(二分图 )
    pku 3363(内部测试赛)
    Linux 下联网脚本文件
    Qt 多国语言
    引用和引用参数
  • 原文地址:https://www.cnblogs.com/wrljzb/p/15634872.html
Copyright © 2011-2022 走看看