1、HDFS(Hadoop Distributed File System)是一个分布式文件系统,具有良好的扩展性、容错性以及易用的API。它的核心思想是将文件切分成等大的数据块,以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构,其中主服务被称为NameNode,管理文件系统的元信息,而从服务被称为DataNode,存储实际的数据块,DataNode与NameNode维护了周期性的心跳,为了防止NameNode出现单点故障,HDFS允许一个集群中存在主备NameNode,并通过ZooKeeper完成Active NameNode的选举工作。HDFS提供了丰富的访问方式,用户可以通过HDFS shell, HDFS API,数据收集组件以及计算框架等存取HDFS上的文件
2、HDFS基本架构
HDFS采用主从架构,主节点被称为NameNode,从节点称为DateNote。基本架构如下:
3、HDFS关键技术
容错性设计、副本放置策略、异构存储介质、集中式缓存管理
4、HDFS访问路径
HDFS shell、管理员命令、数据收集组件(Flume、Sqoop)、计算引擎
PS:来自书籍《大数据技术体系详解:原理、架构与实践》