一、什么是hadoop
1. 背景
Hadoop为分布式文件系统和计算的基础框架系统,其中包含hadoop程序,hdfs系统等。
2. 名词解释
1.Hadoop, Apache开源的分布式框架。
2.HDFS, hadoop的分布式文件系统
3.NameNode, hadoop HDFS元数据主节点服务器,负责保存DataNode 文件存储元数据信息。
4.JobTracker, hadoop的Map/Reduce调度器,负责与TackTracker通信,分配计算任务并跟踪任务进度。
5.DataNode, hadoop数据节点,负责存储数据。
6.TaskTracker, hadoop调度程序,负责Map,Reduce 任务的具体启动和执行。
7.Fuse, 多文件系统内核程序,可将不同的文件系统mount成linux可读写模式
3、hadoop能解决那些问题?---基础与核心
- 海量数据需要及时分析和处理 --MapReduce
- 海量数据需要深入分析和挖掘--MapReduce
- 数据需要长期保存--HDFS
4、当前问题
- 磁盘IO成为一种瓶颈,而非CPU资源
- 网络带宽是一种稀缺资源
- 硬件故障成为影响稳定的一大因素
5、学习hadoop的目的
Hadoop是IT行业的新热点,是实现云计算的一个具体实现。