zoukankan      html  css  js  c++  java
  • 数据清洗

    1、数据导入:

    要求将样表文件中的AA_GXJSQYDC2019数据导入HIVE数据仓库中。

    分别将四个标准维度表导入数据仓库中。

    2、数据清洗:

    根据标准维度将国民经济行业维度地域维度、高新技术领域维度企业所属领域维度四个维度字段清洗完成。

    建表

    create table temps(ID string,QA04 string,QA05 string,QA07 string,QA15 string,QA19 string,QA_S string,QB03 string,QB03ONE string,QB03TWO string,QB03_1 string,QB06 string,QB16 string,QB16V string,QB16_S string,QB16_1 string,QB16_1V string,QC02 string,QC05_0 string,QC24 string,QC40 string,QD01 string,QD28 string,QJ09 string,QJ20 string,QJ55 string,QJ74 string,QJ_S string,SYEAR string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar'     = '\"','escapeChar'    = '\\')STORED AS TEXTFILE;

     

    导入数据

     

    建表

    create table xingzhengs(dm string,dmms string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar'     = '\"','escapeChar'    = '\\')STORED AS TEXTFILE;

     

    导入数据

     

    然后在hive输入

    select

    temps.ID,

    temps.qa04,

    temps.qa05,

    temps.qa07,

    temps.qa15,

    temps.qa19,

    temps.qa_s,

    temps.qb03,

    temps.qb03one,

    temps.qb03two,

    temps.qb03_1,

    temps.qb06,

    temps.qb16,

    temps.qb16v,

    temps.qb16_S,

    temps.qb16_1,

    temps.qb16_1v,

    temps.qc02,

    temps.qc05_0,

    temps.qc24,

    temps.qc40,

    temps.qd01,

    temps.qd28,

    temps.qj09,

    temps.qj20,

    temps.qj55,

    temps.qj74,

    xingzhengs.dmms,

    temps.syear

    from temps

    inner join xingzhengs on temps.qa19 = xingzhengs.dm;

    再将数据导入mysql

     

     

  • 相关阅读:
    typescript泛型
    安卓手机IPhone抓包Https
    js里面for循环的++i与i++
    http请求头
    从浏览器地址栏输入url到页面呈现
    docker部署nodejs应用
    mac下使用MongoDB
    使用vue-cli3&vue ui图形化界面创建项目
    javascript中的call, apply(转载)
    跨域请求
  • 原文地址:https://www.cnblogs.com/wrljzb/p/15646817.html
Copyright © 2011-2022 走看看