zoukankan      html  css  js  c++  java
  • 读书笔记Hadoop实战2

     注:之前写过MapReduce程序,所以对Hadoop和MapReduce编程有一些了解,现在正在阅读《Hadoop实战》一书,这里主要是记下对自己有用的一些点,完全不能覆盖书中的全部要点。想要学习MapReduce入门的同学请移尊步,勿浪费时间。

    这里是我觉得不错的几个入门文章:

    http://www.cnblogs.com/forfuture1978/category/300670.html

    http://blog.csdn.net/aidayei/article/details/6580277

    http://www.cnblogs.com/mdyang/category/307547.html

    http://www.cnblogs.com/wycg1984/category/238035.html

     

    ----------------------------------------------------------敌我分割线------------------------------------------------------------

     

    Hadoop的主要组件/服务:

    Hadoop的存储和计算都采用了主从(master/slave)模式。

    存储的守护进程

            1.NameNode:记录了存储相关的元数据信息,比如文件如何被分块,各个块及其副本在那些数据节点上,HDFS文件系统的状态信息等。一般有一个单独的节点运行这一服务,是Hadoop的单点故障(Single Point Of Failure),已有论文解决这个问题。

            2.DataNode:数据节点,DataNode之间也会通讯。

            3.Secondary NameNode:辅助服务,一般运行在一个单独的机器上,定期对NameNode进行备份(非实时,不能完全解决单点故障)。

    计算的守护进程

            1.JobTracker:应用进程和Hadoop之间的纽带,代码提交到集群之后,JobTracker会确定执行计划,包括处理那些文件,为任务分配节点,监控任务的执行,重启失败的任务等。每个集群只有一个JobTracker,通常在主节点上。

            2.TaskTracker:每个TaskTracker管理相应的一个任务。一个TaskTracker可以生成多个JVM来并行执行多个map和reduce任务。TaskTracker要向JobTracker发送“心跳”,否则JobTracker认为这个TaskTracker已崩溃,并进行重启等操作。

    图示:

     

     

    Hadoop的安装:

    三种模式:本地(单机),伪分布模式,全分布模式。伪分布模式也是一台机器,具备所有的守护进程,一般学习Mapreduce编程用这个安装方式即可。

     

    基于web页面的集群管理界面。

  • 相关阅读:
    构建之法阅读笔记07
    7-第一阶段SCRUM冲刺
    第一阶段个人冲刺博客第十天
    第一阶段个人冲刺博客第九天
    第九周学习进度博客
    java项目(学习和研究)
    让计算机干活
    os基础
    树和图的一些算法
    java代码理解
  • 原文地址:https://www.cnblogs.com/apprentice89/p/2672420.html
Copyright © 2011-2022 走看看