1. HDFS是Hadoop的文件管理体系, 全称为Hadoop Distribute FileSystem
2. MapReduce适用于处理整个数据集或者大多数数据集
MapReduce的优势
- 离线计算, 等待较长时间
- 一个基本的批处理系统
3. YARN (Yet another resource negotiator) 是Hadoop的新的处理模型,集群资源管理系统
作用
- 允许任何一个分布式程序基于Hadoop集群的数据来运行
- 基于Hadoop2 以上版本
4. 更多的协作模式
举例
- 交互式SQL
- 迭代处理
- 流系统,如Spark Streaming运行实时/分布式计算,并向Hadoop或者外界发布结果
- 搜索引擎,如solr 底层可以使用hdfs的文件系统
5. 相较于其他系统的优势
比RDS的优势:
-
海量数据下,可以大幅降低磁盘寻址的时间;
-
但仅适用于处理整个数据集,Hadoop采用流数据的读取模式,仅取决于传输速率
-
可以看出Hadoop体系更擅长炒大锅饭,味道(精度)可能不是很高;mysql之类的RDS更擅长炒小菜,费时,味道可以。
-
可以实现网格计算、志愿计算