Hadoop 有2大核心HDFS (Hadoop Distributed File System)分布式文件系统 , MapRedurce 归约计算
HDFS 把文件按块存储, NameNode 负责 存储文件信息块的地址信息, DataNode负责存储实际的数据.
默认块为64M, 一个NameNode, 三个DataNode,容错性高.
MapReduce
文件信息被JobTracker 分解并分派给TaskTracker的 JobinProcess 和 TaskScheduer 调度执行
JobinProcess 分解成Map计算和Reduce计算, 交给TaskScheduer计算