zoukankan      html  css  js  c++  java
  • Llama-impala on yarn的中间协调服务

    本文基于CDH发行版下的Hadoop Yarn和Impala

    早期的Impala版本中,为了使用Impala,我们通常会在以Client/Server的结构在各个集群节点启动impala-server、impala-state-store和impala-catalog服务,并且在启动过程中无法动态调整内存和CPU的分配。CDH5之后,Impala开始支持Impala-on-yarn模式,通过一个叫做Llama(Long-Lived Application Master)的中间协调Yarn和Impala,向Hadoop Yarn资源管理器申请计算资源。

    1、Llama介绍
    Llama(Long-LivedApplicationMaster)是位于ClouderaImpala和HadoopYARN之间,用于协调资源管理的服务系统。在一个Hadoop集群中,Impala可以通过Llama预约、使用以及释放资源分配,以减少执行Impala查询时过多的资源管理用度。只有在Impala中启用资源管理,集群中的Llama服务才真正运作。
    默认情况下,YARN根据MapReduce工作的需要按位分配资源,而Impala则需要所有资源在同一时间可用,以保证查询的中间结果能够在不同节点间交换,而不需要拖延查询时间来等待新的资源分配,Llama就是为了在每个Impala查询开始执行前就可保证其需要的资源都可用而出现。
    若一个查询执行完毕,Llama会将资源进行缓存,确保在执行Impala子查询时可以使用。这种缓存机制避免了每个查询执行前都需要进行新的资源请求。同时,如果YARN需要该资源用于其他工作,Llama就会将这部分资源还给YARN。
    需要注意的是:Llama仅支持YARN,不能与MRv1结合使用,同时,Llama也是通过YARN的配置文件与Hadoop进行协作的。

    2、控制计算资源预估
    我们提交SQL到Impala后,有时会错误的预估该次查询可能消耗的计算资源,Impala支持用户设置默认的内存和CPU资源申请大小,SQL运行过程中,一旦资源开始紧缺时,Impala会通过Llama向Yarn申请更多的资源来扩展(expanding)当前的预留资源,一旦查询作业完成,Llama通常会将资源还给Yarn。用户可以在启动使用impalad进程时加上-rm_always_use_defaults参数(必选)以及-rm_default_memory=size and -rm_default_cpu_cores(可选),Cloudera官方建议使用Impala-on-yarn时加上这些启动参数,可以让查询资源动态扩展。

    3、验证计算资源预估和实际使用
    为了使用户能够方便的验证查询语句所使用的集群资源大小,使用EXPLAIN语句可以查询相关内存预估的信息,以及使用到virtual core的大小。使用EXPLAIN并不会真正提交查询

    4、资源限制的原理
    CPU限制是通过Linux CGroups机制,Yarn在各个节点启动符合CGroups形式的Container进程

    内存限制是通过限制Impala的查询内存,一旦查询请求被授权,Impala会在执行前设置内存上限


    ————————————————
    版权声明:本文为CSDN博主「opensure」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/opensure/article/details/46929901

  • 相关阅读:
    API网关服务
    技术攻关:从零到精通 https://mp.weixin.qq.com/s/mix-0Ft9G1F5yddNjSzkrw
    如何在团队中推广一项技术 —— 解决Odin一站式微前端的缓存问题
    设计模式的底层逻辑 找到变化,封装变化
    从Android内存到图片缓存优化
    百度C++工程师的那些极限优化(内存篇)
    享元模式
    协同编辑冲突处理算法综述
    大型前端项目内存优化总结
    雪碧图
  • 原文地址:https://www.cnblogs.com/javalinux/p/15069178.html
Copyright © 2011-2022 走看看