zoukankan      html  css  js  c++  java
  • 数据清洗

    1、数据导入:

    要求将样表文件中的AA_GXJSQYDC2019数据导入HIVE数据仓库中。

    分别将四个标准维度表导入数据仓库中。

    2、数据清洗:

    根据标准维度将国民经济行业维度地域维度、高新技术领域维度企业所属领域维度四个维度字段清洗完成。

    建表

    create table temps(ID string,QA04 string,QA05 string,QA07 string,QA15 string,QA19 string,QA_S string,QB03 string,QB03ONE string,QB03TWO string,QB03_1 string,QB06 string,QB16 string,QB16V string,QB16_S string,QB16_1 string,QB16_1V string,QC02 string,QC05_0 string,QC24 string,QC40 string,QD01 string,QD28 string,QJ09 string,QJ20 string,QJ55 string,QJ74 string,QJ_S string,SYEAR string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar'     = '\"','escapeChar'    = '\\')STORED AS TEXTFILE;

     

    导入数据

     

    建表

    create table xingzhengs(dm string,dmms string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar'     = '\"','escapeChar'    = '\\')STORED AS TEXTFILE;

     

    导入数据

     

    然后在hive输入

    select

    temps.ID,

    temps.qa04,

    temps.qa05,

    temps.qa07,

    temps.qa15,

    temps.qa19,

    temps.qa_s,

    temps.qb03,

    temps.qb03one,

    temps.qb03two,

    temps.qb03_1,

    temps.qb06,

    temps.qb16,

    temps.qb16v,

    temps.qb16_S,

    temps.qb16_1,

    temps.qb16_1v,

    temps.qc02,

    temps.qc05_0,

    temps.qc24,

    temps.qc40,

    temps.qd01,

    temps.qd28,

    temps.qj09,

    temps.qj20,

    temps.qj55,

    temps.qj74,

    xingzhengs.dmms,

    temps.syear

    from temps

    inner join xingzhengs on temps.qa19 = xingzhengs.dm;

    再将数据导入mysql

     

     

  • 相关阅读:
    网络信息安全攻防学习平台第7题
    深入理解读写锁ReentrantReadWriteLock
    彻底理解ReentrantLock
    (三)应该了解关于并发相关的概念
    (二)并发编程的优缺点
    Linux Makefile多目录的编写
    libcurl 下载上传
    MFC枚举USB设备碰到的一个疑难,还没解决
    MFC一个令人纠心的错误
    如何为你的App获取用户的反馈和5星级评论
  • 原文地址:https://www.cnblogs.com/wrljzb/p/15646817.html
Copyright © 2011-2022 走看看