hadoop基础知识

zoukankan html css js c++ java

hadoop基础知识

1、Hadoop是一个适合大数据的分布式存储与计算平台

2、Hadoop核心：

HDFS(Hadoop Distributed File System) 分布式文件系统

MapReduce 并行计算框架

2.1、Hadoop生态系统

Zookeeper 分布式协作系统

HBse 实时分布式列存数据库

Spark 内存分布数据集

Hive 数据仓库（离线分析）

Pig 数据流处理

Stom 实时分析（流方式）

Mahout数据挖掘算法库

Spoop 数据ETL工具

Flume 日志手机工具

3、Hadoop架构

3.1、HDFS 主从结构

主节点，只有一个：namenode 从节点，有很多个。

datanode namenode：

负责管理接受用户操作请求，实现对文件系统的操作（命令和API方式）。

维护文件系统的目录结构。

管理文件与block之间关系，block与datanode之间的关系。

datanode：

负责存储存储文件。

文件被分成block。

为保证数据安全，文件会有多个副本。

3.2、MapReduce架构：

主从架构：主节点，只有一个: JobTracker 从节点，有很多个。

TaskTrackers JobTracker:

接受客户提交的计算任务把计算任务分给TaskTrackers执行

监控TaskTracker的执行情况

TaskTracker：

执行JobTracker分配的计算任务

4、Hadoop的特点

扩容能力：能可靠存储和处理千兆字节(PB)数据。

成本低：可以通过普通PC组成集群来分发和处理数据，服务器群总计可达数千个节点。

高效率：通过分发数据，hadoop可以在数据所在节点上并行处理。

可靠性：hadoop能自动维护数据的多副本，并且在任务失败后能自动重新部署计算任务。

查看全文

相关阅读:
央视好节目整理
 IT项目各阶段管理
 使用mint-ui Loadmore组件时出现报错
 简单了解map,filter,some,every,forEach,for in,for of,find,用法
 h5简单学习总结
 video标签详解（转载）
浏览器对象
 获取后三天的时间
 Map和Set以及iterable类型集合的循环遍历
 placeholder的样式设置

原文地址：https://www.cnblogs.com/kenwong/p/4760480.html