hive 导出数据到本地

zoukankan html css js c++ java

hive 导出数据到本地
有时候需要将hive库中的部分数据导入至本地，这样子做可视化和小规模的数据挖掘实验都是比较方便的。数据导入至本地的HQL语法如下：
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1;
但是hive对字段分隔时默认使用的分隔符是^A，使用文本编辑器打开文件显示出来就是乱码，同时，后续提取字段值时需要指定这个特殊的分隔符，在python中使用line.split('x01')来进行切分在java中split("\u0001")来进行切分。
网上看到的方案都是上述这种使用默认分隔符进行切分的，不管是数据查看还是程序调试，都不太方便。但是，既然hive支持在建表的时候指定字段分隔符，hive在数据导出时应该也支持的。HQL建表时指定分隔符的语法为：

CREATE TABLE u_data ( userid INT, movieid INT, rating INT, unixtime STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ';
想必在数据导出时，应该可以ROW FORMAT DELIMITED FIELDS TERMINATED BY 的方式来指定我们自定义的分隔符。于是，实验了一把，结果如我所愿。
用户指定分隔符来进行数据导出，比如我们会使用进行字段分割，那么HQL语法如下：
INSERT OVERWRITE [LOCAL] DIRECTORY directory1

ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

select_statement1;

最后，只有在hive0.12及以上版本才支持该语法哦，hive0.12以下版本的，请自行探索吧。

原文链接： https://blog.csdn.net/zbc1090549839/article/details/53782367
查看全文

相关阅读:
Ant 执行 exec cmd.exe 时路径包含空格的问题
 时区时差换算(GMT,UTC,PST,PDT)
windows 共存多个位数不同的jdk时，eclipse的报错对应措施
 Windows下查询指定端口进程，并杀死
 关于windows的jdk
第一阶段工作总结
 mac配置git mergetool为p4merge（2013笔记整理）
ubuntu 14.04 安装压缩包版mysql
关于微信公众号内嵌网页的几个meta标签
 关于js的keyCode

原文地址：https://www.cnblogs.com/earendil/p/9157133.html