改善上述问题的办法是部署更多的计算机。相同数据量的情况下,每台计算机可以分配更少的数据,从而减少硬盘IO时间,来提高总体的计算效率。同样是上面这个例子,在10G数据量不变的情况下,计算机数量改为20台,每台分配500M的数据,计算时间就缩短了一半。
附操作图示,分别是10G和20G的分布计算排序