MapReduce的实验做的差不多了,但是我对于MapReduce其实根本没有什么理解,知识硬着头皮做实验。
现在通过老师法的PPT对MapReduce有了一个基本了解。
MapReduce:
用于解决大规模的数据处理,最主要的思想就是“分而治之”
MapReduce示例:单词计数(通过此例子了解MapRedue解决问题的流程)
给定一个巨大文本,如何计算每个单词出现的次数?
使用MapReduce求解:
Step1:对文本进行切割
我理解的是,将大数据分割成小数据,然后交给集群处理
Step2:对分割后的每一对<key,value>进行用户定义的Map处理,生成新的<key,value>
这一步按我的理解就是,按照用户的规定对数据进行处理。
Step3:对输出的结果集归拢,排序(系统自动完成)
我理解的是,这是数据整理的过程,可以看到相同的单词都被集合到一起了
Step4:通过Reduce操作生成最后结果
这一步应该就是按用户想要的形式输出,形成最终结果。
相关术语: