1、搭建高可用的hadoop
2、使用shell、API方式操作HDFS
3、HDFS,是一个分布式文件系统,用来解决海量数据的存储问题。
1、分块存储(把一个大文件切分成多个小文件,每一个节点存储一部分小文件)
使用一个集群来联合存储这个文件
2、冗余存储
一个数据块存储多个副本。多个副本分散存储在多个不同的节点上。
提高副本数,有助于提高数据安全性
怎么保证高效呢?
1、机架感知,保证数据块的存放有一个最高效的策略
2、负载均衡
3、安全模式:
加载磁盘元数据(有多少文件,总共有多少数据块)
等待所有的datanode上线来汇报
4、Trash机制
5、Archeive归档解决海量小文件存储问题
6、执行流时数据访问
7、执行自动副本维护
namenode:存储和管理元数据
文件在HDFS
一个namenode要识别一个datanode宕机需要630s
4、mapreduce,是一个分布式计算引擎,用来解决海量数据的计算问题
mapreduce 执行过程讲解
5、zookeeper
分布式一致性原理(paxos算法)