浅显的东西不需要记
day3-13 mapreduce核心思想
核心就是先映射,再归约。先把数据映射成(k,v)的形式,再Reduce聚合到一起算一个总结果。
好比说统计北京不同品牌汽车的数量,要交给多个人去做 ,每个人他也得一辆一辆统计。
map和reduce有什么区别?
map是映射 就是把数据分散到不同机器上面的map任务去做,map会一条一条读数据,给出自己的一个初步汇总结果。
reduce是汇聚,就是把多个机器key一样的作为一组,结果汇总到一起。
map是把数据分散到不同机器处理,是为了减少数据处理的压力,reduce是从不同机器汇总特征一样的数据来汇聚统计,是为了获取总的结果。
day3-14 写wordcount的思路
map一行一行的读取数据,一行数据转成字符串,然后交给StringTokenizer处理可以按空格分割出字符,然后以单词迭代器的形式输出,每个单词计数1个凑成kv对。context写出(hello,1)的形式。
reduce接收的是单词key和一堆1,然后迭代一加输出就行了。
day3-15 自定义wordcount
mapper,reducer,driver 他们有什么区别