zoukankan      html  css  js  c++  java
  • 数据清洗

    1、数据导入:

    要求将样表文件中的AA_GXJSQYDC2019数据导入HIVE数据仓库中。

    分别将四个标准维度表导入数据仓库中。

    2、数据清洗:

    根据标准维度将国民经济行业维度地域维度、高新技术领域维度企业所属领域维度四个维度字段清洗完成。

    建表

    create table temps(ID string,QA04 string,QA05 string,QA07 string,QA15 string,QA19 string,QA_S string,QB03 string,QB03ONE string,QB03TWO string,QB03_1 string,QB06 string,QB16 string,QB16V string,QB16_S string,QB16_1 string,QB16_1V string,QC02 string,QC05_0 string,QC24 string,QC40 string,QD01 string,QD28 string,QJ09 string,QJ20 string,QJ55 string,QJ74 string,QJ_S string,SYEAR string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar'     = '\"','escapeChar'    = '\\')STORED AS TEXTFILE;

     

    导入数据

     

    建表

    create table xingzhengs(dm string,dmms string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar'     = '\"','escapeChar'    = '\\')STORED AS TEXTFILE;

     

    导入数据

     

    然后在hive输入

    select

    temps.ID,

    temps.qa04,

    temps.qa05,

    temps.qa07,

    temps.qa15,

    temps.qa19,

    temps.qa_s,

    temps.qb03,

    temps.qb03one,

    temps.qb03two,

    temps.qb03_1,

    temps.qb06,

    temps.qb16,

    temps.qb16v,

    temps.qb16_S,

    temps.qb16_1,

    temps.qb16_1v,

    temps.qc02,

    temps.qc05_0,

    temps.qc24,

    temps.qc40,

    temps.qd01,

    temps.qd28,

    temps.qj09,

    temps.qj20,

    temps.qj55,

    temps.qj74,

    xingzhengs.dmms,

    temps.syear

    from temps

    inner join xingzhengs on temps.qa19 = xingzhengs.dm;

    再将数据导入mysql

     

     

  • 相关阅读:
    Oracle Words Spelling Error
    原创 分布式锁与应用场景
    原创 分布式事务简单实现思路
    原创 使用redis位图实现布隆过滤器
    原创 redis实现接口限流
    原创 jwt-security简单实现
    原创 抢购秒杀之redis高性能实现
    原创 springcloud feign优化配置
    原创 派单、抢单业务简单实现
    原创 微信公众号推送图片实现
  • 原文地址:https://www.cnblogs.com/wrljzb/p/15646817.html
Copyright © 2011-2022 走看看