优化方法
数据输入
1. 合并小文件 ,减少map任务数量
2.采用 combine inputformat作为输入,减少map端小文件数量
3.减少 spill次数 ,增大内存触发条件
4.减少merge次数
5.combine处理
6.合理处理 map和 reduce的次数
7.设置map和reduce并存,map不必执行完毕,reduce就可以运行
8.规避使用reduce
数据倾斜方法:
1.抽样和范围分区,得到分区划分的近似值
2.自定义分区 将数量多的key划分到一个reduce
3.combine map端处理
4.尽量采用map join