今天工作中遇到一个问题:
要求对28G的数据排序,数据的格式如下:
id time
要求按时间升序排序
已有的资源为64G内存,32核的服务器一台,需要在一个晚上(8小时)内跑出排序结果。
一个直观的解法就是把数据全部加载进内存,然而实际操作并不可行,才加载了1/10不到的数据就已经使用了接近40G的内存了。
另一个解决思路是手动进行map reduce,分成若干小模块,小模块排序之后再逐一合并。这个思路实现起来代价也很高,逐一合并无法利用32核GPU,速度估计不达标。充分利用CPU的话,调度策略编码量估计不小……
最后我们找到了一个超级巧妙的解决方案:
按照日期划分文件,每天的数据单独输出成一个文件,由于我们的数据只是1~8月份的数据,故只划分为240多个文件,
每个文件只有119M,然后利用多核特性对每个文件进行排序,排好序后按文件名收尾连接就好了。
桶排序思想,好巧妙!