zoukankan      html  css  js  c++  java
  • hive 导出数据到本地

    有时候需要将hive库中的部分数据导入至本地,这样子做可视化和小规模的数据挖掘实验都是比较方便的。数据导入至本地的HQL语法如下:
    INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1;
    但是hive对字段分隔时默认使用的分隔符是^A,使用文本编辑器打开文件显示出来就是乱码,同时,后续提取字段值时需要指定这个特殊的分隔符,在python中使用line.split('x01')来进行切分在java中split("\u0001")来进行切分。

    网上看到的方案都是上述这种使用默认分隔符进行切分的,不管是数据查看还是程序调试,都不太方便。但是,既然hive支持在建表的时候指定字段分隔符,hive在数据导出时应该也支持的。HQL建表时指定分隔符的语法为:

    	CREATE TABLE u_data (
      		userid INT,
      		movieid INT,
      		rating INT,
      		unixtime STRING)
    	ROW FORMAT DELIMITED
    	FIELDS TERMINATED BY '	';
    想必在数据导出时,应该可以ROW FORMAT DELIMITED FIELDS TERMINATED BY 的方式来指定我们自定义的分隔符。于是,实验了一把,结果如我所愿。

    用户指定分隔符来进行数据导出,比如我们会使用 进行字段分割,那么HQL语法如下:
    INSERT OVERWRITE [LOCAL] DIRECTORY directory1 

    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 

    select_statement1;

    最后,只有在hive0.12及以上版本才支持该语法哦,hive0.12以下版本的,请自行探索吧。

    原文链接: https://blog.csdn.net/zbc1090549839/article/details/53782367
     
     
  • 相关阅读:
    OI数学知识清单
    线段树入门教程
    扩展欧几里得定理基础讲解 代码及证明
    名字竞技场 V3.0
    可持久化线段树(主席树)新手向教程
    矩阵乘法浅析
    [Luogu] P1233 木棍加工
    高斯消元 模板
    位运算技巧
    [ZJOJ] 5794 2018.08.10【2018提高组】模拟A组&省选 旅行
  • 原文地址:https://www.cnblogs.com/earendil/p/9157133.html
Copyright © 2011-2022 走看看