分区(partition by)
目的:加快数据查询:
实现:依据某几个数据属性,设置分区;
eg:依据时间和国家,9.1&CN;9.1&US;9.2 ...;
形式:层级目录;
实践:
分桶 (clustered by)
目的:更细粒度的划分数据,加快数据查询;
实现:根据某一列属性(表本身属性),取每一条数哈希值,分到一个桶内;
用于:数据抽样;加快表链接(join)
实践:?
查询操作:
语句;
链接join;
排序order by;
笛卡儿积?
列转行&行转列:
窗口函数:?
窗口就是分析函数分析时要处理的数据范围
函数:
内置:
........
自定义函数UDF:
命令行实现;
编程实现(hive API);