Hive之优化
第一节:简介
hive的优化 --- mapreduce的优化
1个reducetask对应的数据量最好不超过2G
reducetask的个数最好不超过0.95*datanode的个数
第二节:优化手段
一、合理选择排序
二、合理做笛卡尔积
三、in/exists效率低
hive 高效实现手段
inner join
left semi join
四、insert选择
能使用多重插入,就不使用单重插入。
五、合理分桶
1、join 性能
合理的分桶会提升join的性能