1.什么是分桶
分桶就是将数据按照指定字段进行划分到多个文件中去。分桶就是MapReduce中的分区
2.开启Hive的分桶功能,设置Reduce个数
3.创建分桶表
注:根据c_id将数据划分到3个桶中,分桶的关键字是 clustered by()into ()buckets
将数据划分到几个桶中取决于设置的Reduce的个数
根据c_id实现分桶的原理:利用c_id的值获取一个哈希值,用哈希值对reduce的个数取模
4.向分桶表中加载数据
注:桶表数据的加载使用-put命令和load data命令均不好使,只能用insert overwrite
4.1创建分桶表
4.2创建普通表,普通表相当于一个中间表
4.3向普通表中加载数据
4.4利用insert overwrite向分桶表中加载数据