Hive 知识盲点 - 走看看

zoukankan html css js c++ java

Hive 知识盲点

1. 元数据配置

配置属性 javax.jdo.option.ConnectionURL, javax.jdo.option.ConnectionDriverName 等

2. 集合数据类型

STRUCT：

MAP：

ARRAY：

3.分割符

分行

01 分列

02 分隔ARRAY、STRUCT、MAP

03 分隔MAP

4. 创建数据库，指定位置

create database financials location '/my/preferred/directory'

5. 创建表：配置参数

也可以配置 location

6. 外部表

create external table 。。。。。。

外部表不能真正删除这些数据，只修改元数据

7. 分区表

partitioned by

会为每个分区配置不同的文件夹

8. 外部分区表

外部+分区

9. 自定义表存储格式

定义各种分割符

10. 增删改表分区

ALTER 。。。 ADD 。。。 PARTITION

ALTER 。。。 DRP 。。。 PARTITION

ALTER 。。。 PARTITION。。。。SET

11. 装载数据

本地：LOAD DATA LOCAL PATH “。。。。”

HDFS： LOAD DATA PATH “。。。。”

12. 动态分区插入

INSERT OVERWRITE TABLE　tableName PARTITION (country='cn', state) SELECT 。。。。。。

13. 导出数据

INSERT OVERWRITE LOCAL DIRECTORY ‘/tmp/data’ SELECT 。。。

14. 正则表达式匹配列

select symbol, 'price.*' from stocks

15. 表生成函数

explode, inline, json_tuple, parse_url_tuple, stack 等

特别的，hive也有正则表达式提取函数： regexp_extract, regexp_replace 等函数

16. CASE...WHEN

类似IF语句

17. 避免MapReduce

配置自动启用本地模式

18. RLIKE 正则表达式的LIKE

用法与like一样

19. JOIN 优化

小表在前，大表在后。Hive尝试将前面的表缓存起来，与最后的表连接。

20. 左半开连接 LEFT SEMI-JOIN

结果与内连接一样，但是效率高：对于左表中一条记录，在右边表中一旦找到匹配的记录，Hive立即停止扫描。而内连接全部扫描。

21.map-side Join

配置自动启用

22. ORDER BY 和 SORT BY

order by 是全局排序

sort by 是每个reduce局部排序

23. DISTRIBUTE BY

控制map的输出在reduce中的划分

24. CLUSTER BY

相当于 DISTRIBUTE BY、sort by 的组合

25. 抽样查询

select * from tablename TABLESAMPE(0.1 PERSENT) s;

select * from tablename TABLESAMPE( BUCKET 2 OUT OF 10 on rand() ) s;

26. 分桶表输入裁剪

27. 视图注意点

30. Hive 索引

功能有限

31. 常用模式设计

(1) 按天划分的表

32.分区

33. 同一数据多种处理

34. 分桶表

太多小分区带来问题，可以使用分桶

35. 执行计划EXPLAIN

36. 严格模式

37. 自动本地模式

38. 推测执行

39. 虚拟列

40. 压缩杂项

41.存档分区

42. Java 调试

43. Hive_test

单元测试

44. UDF

继承 org.apache.hadoop.hive.ql.exec.UDF, 实现方法 evaluate()

或者继承GenericUDF，实现initialize、evaluate，getDisplayString 等方法

45. Streaming

与shell集成

46.其他格式

47.Thrift

48. 结合其他Hadoop部件

49.安全

50. 锁

结合zookeepper 来的

51. 整合 Oozie

52. HCatalog

53. 案例

查看全文

相关阅读:
数据查询表，列名对比
 Oracle ORA06550:错误
 设计模式——单例模式
 MS SQL 建表SQL的脚本
 WinForm 清空界面控件值的小技巧
 WinForm系列——控件的输入限制
 C++学习笔记——常量定义
 PLSQL 调试触发器
 static类为什么不能用sealed关键字修饰
 C++虚函数解析（转）

原文地址：https://www.cnblogs.com/leeeee/p/7276129.html