zoukankan      html  css  js  c++  java
  • 第131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记

    131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记

    为什么需要均衡器呢?

    随着集群运行,具体hdfs各个数据存储节点上的block可能分布得越来越不均衡,会导致运行作业时降低mapreduce的本地性。

    分布式计算中精髓性的一名话:数据不动代码动。降低本地性对性能的影响是致使的,而且不能充分利用集群的资源,因为导致任务计算会集中在部分datanode上,更易导致故障。

    balancerhadoop的一个守护进程。会将block从忙的datanode移动到闲的datanode上,重新分配block,另外在生产环境下会有rackbalancer会坚持repalication放置策略,将block分布到不同的机架中,降低数据损坏的可能性。

    balancer本身会不断移动block直到达到均衡状态,什么叫均衡?每一个datanode的使用率(当前节点已使用空间与空间容量的百分比),和集群使用率(集群已使用空间与集群空间容量的百分比),如果节点使用率与集群使用率接近(不超过一定的阀值)则认为均衡。这个阀值的设定方法:threshold参数。

    默认阀值是10%

    由于 balancer工作时消耗资源,所以工作时集群中只有一个balancer

    balancer在标准日志中会创建日志记录每一个block重新分配的过程。为降低集群负荷,balancer被设计为在后台运行,在不同节点间复制数据的带宽也受限,默认为1MB/s(可设)

    start-balancer.sh即可运行。

    生产环境下balancer非常重要。

     

    以上内容是王家林老师DT大数据梦工厂《Hadoop深入浅出实战经典》第131讲的学习笔记。
    王家林:SparkFlinkDockerAndroid技术中国区布道师。Spark亚太研究院院长和首席专家,DT大数据梦工厂创始人,Android软硬整合源码级专家,英语发音魔术师,健身狂热爱好者。

    微信公众账号:DT_Spark

    联系邮箱18610086859@126.com 

    电话:18610086859

    QQ:1740415547

    微信号:18610086859  

    新浪微博:ilovepains

    王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!

    可以通过王家林老师的微信号18610086859发红包捐助,目前已经发布的王家林免费视频全集如下:

    1,《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq  

    2,《Hadoop深入浅出实战经典》 http://pan.baidu.com/s/1mgpfRPu 

    3,《Spark纯实战公益大讲坛》 http://pan.baidu.com/s/1jGpNGwu 
    4,《Scala深入浅出实战经典》 http://pan.baidu.com/s/1sjDWG25 
    5,《Docker公益大讲坛》 http://pan.baidu.com/s/1kTpL8UF 
    6,《Spark亚太研究院Spark公益大讲堂》 http://pan.baidu.com/s/1i30Ewsd 

    7Spark实战高手之路全部六阶段视频:http://edu.51cto.com/pack/view/id-144.html

    8,《大数据Spark企业级实战》购买http://item.jd.com/11622851.html

     

    131讲视频网站地址:

    51CTO

    http://edu.51cto.com/lesson/id-78585.html

  • 相关阅读:
    windows 保留7天的文件
    同步
    bytes数据类型的转码问题:
    hashlib,logging,configparser模块
    面向对象 ---封装
    面向对象 -----多态
    面向对象 ---继承
    面向对象的命名空间与组合
    常用模块:
    匿名函数:
  • 原文地址:https://www.cnblogs.com/richard1023/p/4966996.html
Copyright © 2011-2022 走看看