hadoop主要概念的理解和学习 - 走看看

zoukankan html css js c++ java

hadoop主要概念的理解和学习

1、搭建高可用的hadoop

2、使用shell、API方式操作HDFS

3、HDFS，是一个分布式文件系统，用来解决海量数据的存储问题。

1、分块存储（把一个大文件切分成多个小文件，每一个节点存储一部分小文件）
使用一个集群来联合存储这个文件
2、冗余存储
一个数据块存储多个副本。多个副本分散存储在多个不同的节点上。
提高副本数，有助于提高数据安全性
怎么保证高效呢？
1、机架感知，保证数据块的存放有一个最高效的策略
2、负载均衡
3、安全模式：

加载磁盘元数据（有多少文件，总共有多少数据块）
等待所有的datanode上线来汇报

4、Trash机制
5、Archeive归档解决海量小文件存储问题
6、执行流时数据访问
7、执行自动副本维护

namenode：存储和管理元数据

文件在HDFS

一个namenode要识别一个datanode宕机需要630s

4、mapreduce，是一个分布式计算引擎，用来解决海量数据的计算问题

mapreduce 执行过程讲解

5、zookeeper

分布式一致性原理（paxos算法）

查看全文

相关阅读:
Oracle 的merge into 用法
 个人博客作业——结课总结
 个人博客作业week7
结对项目总结博客
 #个人博客作业week3——微软必应词典的使用
 #个人博客作业week2——结对编程伙伴代码复审
 #个人博客作业week2——关于代码规范的个人观点
 #个人博客作业——目前流行的源程序版本管理软件和项目管理软件优缺点
 个人项目——四则运算题目的随机生成
 #个人博客作业Week1——浏览教材后提出的六个问题及软件与软件工程的提出。

原文地址：https://www.cnblogs.com/jycjy/p/7516296.html

Copyright © 2011-2022 走看看