1.hadoop是什么?
Hadoop 是Apache基金会下一个开源的大数据分布式计算平台,它以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了系统底层细节透明的分布式基础架构。
2.hadoop主要组成部分
1)hdfs分布式存储文件系统---海量数据存储,大文件被分成默认64M一块的数据块分布存储在集群机器中
2)Yarn资源管理与作业调度
3)MapReduce算法---数据计算(并行计算框架)
3.hadoop特点
可靠、高效、可伸缩、容错、不适合低延迟数据访问、可处理大规模集群海量数据
4.hadoop集群组成部分
NameNode,DataNode,SecondaryNameNode,Yarn ResourceManager-(JobTracker,TaskTracker)、NodeManager。
1)NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点,同时保存了文件系统运行的状态信息。
2)DataNode中存储的是被拆分的blocks。
3)SecondaryNameNode帮助NameNode收集文件系统运行的状态信息。
4)JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker。
5)TaskTracker负责某一个map或者reduce任务。
hadoop集群遵从M/S主从结构分布,DataNode一般分布在从节点上。
5.MapReduce介绍
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大的方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。它的实现是map函数和Reduce函数组成。
Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce
Task的输出为整个job的输出,保存在HDFS上。
简单的说:MapReduce框架的核心步骤主要分两部分:Map和Reduce。当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。Reduce对数据做进一步处理之后,输出最终结果。
MapReduce由Client、JobTracker、TaskTracker、Task组成,如图:
1)Client
用户编写的MapReduce程序通过Client提交到JobTracker。
2)JobTracker
主要负责资源监控和作业调度。JobTracker监控所有TaskTracker与作业的健康情况,一旦有失败情况后,其会将相应的任务给到其他节点上。
3)TaskTracker
它会周期的将本节点资源使用和任务进度汇报给jobtracker,方式叫做“心跳”;与此同时接受jobTracker发送过来的命令并执行操作。
4)Task
Task分为Map Task和Reduce Task两种,有TaskTracker启动。
Map Task:将对应的输入信息解析成一个个的key/value对,调用map函数进行处理,最终将临时结果放到本地磁盘上,临时数据会被分成若干个partition,每个partition对应一个Reduce Task。
Reduce Task过程:从节点上读取Map Task中间结果;按照key对key/value对进行排序;调用reduce函数,将结果保存到HDFS上
执行流程:
1)作业提交:首先有Client将作业相关信息上传到HDFS上,然后通知JobTracker。JobTracker接收到请求之后,有作业调度进行初始化,JobTracker会创建一个JobInProgress进程,作用是跟踪作业运行状况,并且为每个Task创建一个TaskInProgress来跟踪每个人物的运行状态。
2)任务调度和监控:TaskTracker周期性的通过心跳向jobTracker汇报节点的资源使用情况,JobTracker按照一定策略选择一个合适的任务使用该空闲资源,这个就是任务调度器完成的工作了。另外JobTracker还要完成监控的作用,负责跟踪作业的整个与性过程,如果Tasktracker或者Task失败,将转移计算任务。
3)任务环境准备:TaskTracker为每个Task启动一个JVM避免不同Task之间的冲突。
4)任务执行:启动Task,运行过程中,每个Task通过RPC的方法是汇报给TaskTracker,再有TaskTracker汇报给JobTracker
5)作业完成:所有的Task执行完毕后,整个作业执行成功。
6.HDFS介绍
1)Hadoop Distributed FileSystem,Hadoop分布式文件系统。
a.Block:HDFS默认的基本存储单位是64M的数据块,和普通文件系统相同的是,HDFS中的文件是被分成64M(新版128M)一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。
b.元数据节点(NameNode)和数据节点(DataNode)
2)HDFS特点
(1) 超大文件数据集群
(2) 流式数据访问方式读取文件
(3) 对硬件要求并不是特别高,有很好的容错机制。
(4) 数据访问有一定的延迟,这是因为HDFS优化的是数据吞吐量,是要以提高延迟为代价的。
(5) HDFS无法高效存储大量小文件,因为NameNode限制了文件个数。
(6) HDFS不支持多个写入者,也不支持随机写。
3)体系结构
(1)HDFS由Client、NameNode、DataNode、SecondaryNameNode组成。
(2)Client提供了文件系统的调用接口。
(3)NameNode由fsimage(HDFS元数据镜像文件)和editlog(HDFS文件改动日志)组成,NameNode在内存中保存着每个文件和数据块的引用关系。NameNode中的引用关系不存在硬盘中,每次都是HDFS启动时重新构造出来的。
(4) SecondaryNameNode的任务有两个:a.定期合并fsimage和editlog,并传输给NameNode;b.为NameNode提供热备份。
(5)一般是一个机器上安装一个DataNode,一个DataNode上又分为很多很多数据块(block)。数据块是HDFS中最小的寻址单位,一般一个块的大小为64M,不像单机的文件系统,少于一个块大小的文件不会占用一整块的空间。
(6)设置块比较大的原因是减少寻址开销,但是块设置的也不能过大,因为一个Map任务处理一个块的数据,如果块设置的太大,Map任务处理的数据量就会过大,会导致效率并不高。
(7)DataNode会通过心跳定时向NameNode发送所存储的文件块信息。
(8)HDFS的副本存放规则
默认的副本系数是3,一个副本存在本地机架的本机器上,第二个副本存储在本地机架的其他机器上,第三个副本存在其他机架的一个节点上。
这样减少了写操作的网络数据传输,提高了写操作的效率;另一方面,机架的错误率远比节点的错误率低,所以不影响数据的可靠性。
4)数据流向过程
读取过程说明
(1)HDFS客户端调用DistributedFileSystem类的open()方法,通过RPC协议请求NameNode来确定说请求的文件所在位置,找出最近的DataNode节点的地址。
(2)DistributedFileSystem会返回一个FSDataInputStream输入流对象给客户端。
(3)客户端会在FSDatatInputStream上调用read()函数,按照每个DataNode的距离从近到远依次读取。
(4)读取完每个DataNode后,在FSDataInputStream上调用close()函数。
(5)如果读取出现故障,就会读取数据块的副本,同时向NameNode报告这个消息。
写入流程说明
(1)客户端调用DistributedFileSystem对象的create()方法,通过RPC协议调用NameNode,在命名空间创建一个新文件,此时还没有关联的DataNode与之关联。
(2)create()方法会返回一个FSDataOutputStream对象给客户端用来写入数据。
(3)写入数据前,会将文件分割成包,放入一个“数据队列”中。
(4)NameNode为文件包分配合适的DateNode存放副本,返回一个DataNode的管道。
(5)根据管道依次保存文件包在各个DataNode上。
(6)各个DataNode保存好文件包后,会返回确认信息,确认消息保存在确认队列里,当管道中所有的DataNode都返回成功的的确认信息后,就会从确认队列里删除。
(7)管道中所有的DataNode都保存完成后,调用FileSystem对象的close()关闭数据流。
7.Yarn介绍
YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。其中,ResourceManager负责所有资源的监控、分配和管理;ApplicationMaster负责每一个具体应用程序的调度和协调;NodeManager负责每一个节点的维护。对于所有的applications,RM拥有绝对的控制权和对资源的分配权。而每个AM则会和RM协商资源,同时和NodeManager通信来执行和监控task。
ResourceManager
ResourceManager负责整个集群的资源管理和分配,是一个全局的资源管理系统。
NodeManager以心跳的方式向ResourceManager汇报资源使用情况(目前主要是CPU和内存的使用情况)。RM只接受NM的资源回报信息,对于具体的资源处理则交给NM自己处理。
YARN Scheduler根据application的请求为其分配资源,不负责application job的监控、追踪、运行状态反馈、启动等工作。
NodeManager
NodeManager是每个节点上的资源和任务管理器,它是管理这台机器的代理,负责该节点程序的运行,以及该节点资源的管理和监控。YARN集群每个节点都运行一个NodeManager。
NodeManager定时向ResourceManager汇报本节点资源(CPU、内存)的使用情况和Container的运行状态。当ResourceManager宕机时NodeManager自动连接RM备用节点。
NodeManager接收并处理来自ApplicationMaster的Container启动、停止等各种请求。
ApplicationMaster
用户提交的每个应用程序均包含一个ApplicationMaster,它可以运行在ResourceManager以外的机器上。
负责与RM调度器协商以获取资源(用Container表示)。
将得到的任务进一步分配给内部的任务(资源的二次分配)。
与NM通信以启动/停止任务。
监控所有任务运行状态,并在任务运行失败时重新为任务申请资源以重启任务。
当前YARN自带了两个ApplicationMaster实现,一个是用于演示AM编写方法的实例程序DistributedShell,它可以申请一定数目的Container以并行运行一个Shell命令或者Shell脚本;另一个是运行MapReduce应用程序的AM—MRAppMaster。
注:RM只负责监控AM,并在AM运行失败时候启动它。RM不负责AM内部任务的容错,任务的容错由AM完成。
执行过程
1)client向RM提交应用程序,其中包括启动该应用的ApplicationMaster的必须信息,例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
2)ResourceManager启动一个container用于运行ApplicationMaster。
3)启动中的ApplicationMaster向ResourceManager注册自己,启动成功后与RM保持心跳。
4)ApplicationMaster向ResourceManager发送请求,申请相应数目的container。
5)ResourceManager返回ApplicationMaster的申请的containers信息。申请成功的container,由ApplicationMaster进行初始化。container的启动信息初始化后,AM与对应的NodeManager通信,要求NM启动container。AM与NM保持心跳,从而对NM上运行的任务进行监控和管理。
6)container运行期间,ApplicationMaster对container进行监控。container通过RPC协议向对应的AM汇报自己的进度和状态等信息。
7)应用运行期间,client直接与AM通信获取应用的状态、进度更新等信息。
8)应用运行结束后,ApplicationMaster向ResourceManager注销自己,并允许属于它的container被收回。