1.Hadoop架构分两部份:Map与Reduce
2.Hadoop运行总体印象:
第一步:Hadoop框架将输入的数据(HDFS:分布式文件系统),分割成固定大小的Splits(大小为64M),为每一个Split创建一个Map任务用于执行程序员写的map函数。Split的格式:<K,V> K->每行首字母在文件中的偏移量 V->每行的字符;如<0,"Hello World">
第二步:将<K,V>作为参数传递给map(由程序员自定义逻辑处理它),map生成<K1,V1> K1->为每个字符 V1->出现的次数;
如 <‘Hello’,'1'> <'World','1'> <'Hello','2'> <'World','2'>
第三步:对K1进行排序;如 <‘Hello’,'1'><'Hello','2'> <'World','1'> <'World','2'>
第四步:Combine进行组合,将结果传给reduce函数;如<‘Hello’,'1,2'> <'World','1,2'>
第五步:reduce函数(由程序员自定义逻辑处理它)生成结果;如<‘Hello’,'3'> <'World','3'>
第六步:将结果存入HDFS