zoukankan html css js c++ java

Hive数据提取

Hive是基于Hadoop的ETL工具和数据仓库。

结构化数据

结构化数据就像RDBMS

hive> create table structured_table(id int, name string)
    > row format delimited
    > fields terminated by ','
    > location '/yandufeng/structured_table';
OK
Time taken: 0.209 seconds
hive> load data local inpath '/home/hive/test2.txt' into table structured_table;
Loading data to table default.structured_table
Table default.structured_table stats: [numFiles=1, totalSize=23]
OK
Time taken: 0.831 seconds
hive> select * from structured_table;
OK
1    hello
2    name
3    world
Time taken: 0.106 seconds, Fetched: 3 row(s)

半结构化的数据，例如：json，xml

hive> 
    > create table json_table(str string);
OK
Time taken: 0.229 seconds
hive> load data local inpath '/home/hive/json_table.json' into table json_table;
Loading data to table default.json_table
Table default.json_table stats: [numFiles=1, totalSize=26]
OK
Time taken: 1.523 seconds
hive> select get_json_object(str, '$.a') from json_table;
OK
2
Time taken: 0.168 seconds, Fetched: 1 row(s)
hive> select get_json_object(str, '$.a'), get_json_object(str, '$.b') from json_table;
OK
2    blah
Time taken: 0.084 seconds, Fetched: 1 row(s)

什么时候使用Hive

当需要强大的统计方法的时候
当要处理结构化或者半结构化数据
当需要基于Hadoop的数据仓库
可以于Hbase结合

Hive用在什么地方

作为ETL工具和数据仓库
提供HQL进行数据查询
为特定的需求，用自定义的map和reduce脚本

查看全文

相关阅读:
JS判断是否是IE浏览器
 JS在页面光标位置插入新内容
 JS限制文本框输入金额，保留2位小数
 JS格式化日期方法
 MySQL数据库中16进制进行位运算
 Java过滤特殊字符的正则表达式
 JAVA查看线程信息
 win7 安装Redis
JAVA获取catch中的异常信息
 cpu占用率过高debug

原文地址：https://www.cnblogs.com/yandufeng/p/6433622.html

最新文章
继承练习题
 及格问题
 大道至简
 多态
 课堂例子
 大道至简
 大道至简继上一个
 大道至简
 继承和接口
 随机数