hive的优化 --- mapreduce的优化
1个reducetask对应的数据量最好不超过2G
reducetask的个数最好不超过0.95*datanode的个数
hive 高效实现手段
inner join
left semi join
能使用多重插入,就不使用单重插入。
合理的分桶会提升join的性能