一、hadoop是一个分布式系统基础架构。分布式解决海量数据的存储和分析计算。大部分框架都依赖于hadoop。
三篇论文需要了解。
二、hadoop的优势
1、高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障们都不会导致数据的丢失。
2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。都是动态操作
3、高效性:并行工作,加快任务处理速度。
4、高容错性:自动将失败的任务重新分配。
三、hadoop的组成
hadoop 1.x和hadoop2.x的区别:
2.x更加模块化。1.x耦合性更大。
HDFS包括:
1、namenode:存储文件的元数据,如文件名、文件目录、文件属性,以及每个文件的块列表和块所在的datanode。就相当于是那些数据的存储目录。
2、datanode:,就相当于是实实在在的数据。
3、辅助namenode工作。
四、yarn架构
五、mapreduce架构
map并行处理输入的数据,负责分 reduce对map的结果进行汇总,负责合。