zoukankan      html  css  js  c++  java
  • hadoop 基本命令

    hdfs相关

    1.查看HDFS文件目录

    hadoop fs -ls /

    mapreduce相关

    1.查看mapred job

    mapred job -list
    hadoop job -list

     

    UsedContainers RsvdContainers UsedMem RsvdMem  NeededMem

    当usedmem达到neededmem时任务就无法执行了。

    计算方式:

    队列容量=yarn.scheduler.capacity.<queue-path>.capacity/100
    队列绝对容量=父队列的 队列绝对容量*队列容量 
    队列最大容量=yarn.scheduler.capacity.<queue-path>.maximum-capacity/100 
    队列绝对最大容量=父队列的 队列绝对最大容量*队列最大容量
    绝对资源使用比=使用的资源/全局资源
    资源使用比=使用的资源/(全局资源 * 队列绝对容量) 
    最小分配量=yarn.scheduler.minimum-allocation-mb
    用户上限=MAX(yarn.scheduler.capacity.<queue-path>.minimum-user-limit-percent,1/队列用户数量)
    用户调整因子=yarn.scheduler.capacity.<queue-path>.user-limit-factor 
    最大提交应用=yarn.scheduler.capacity.<queue-path>.maximum-applications 
        如果小于0 设置为(yarn.scheduler.capacity.maximum-applications*队列绝对容量)
    单用户最大提交应用=最大提交应用*(用户上限/100)*用户调整因子
    AM资源占比(AM可占用队列资源最大的百分比)
        =yarn.scheduler.capacity.<queue-path>.maximum-am-resource-percent
        如果为空,设置为yarn.scheduler.capacity.maximum-am-resource-percent
    最大活跃应用数量=全局总资源/最小分配量*AM资源占比*队列绝对最大容量
    单用户最大活跃应用数量=(全局总资源/最小分配量*AM资源占比*队列绝对容量)*用户上限*用户调整因子
    本地延迟分配次数=yarn.scheduler.capacity.node-locality-delay<code>

     YARN内存使用优化配置

    2.杀死任务

    mapred job -kill job_id
  • 相关阅读:
    sql 查询某个字段出现的次数
    Spark性能优化指导及总结
    数据结构与算法基础-排序
    数据仓库中数据模型之拉链表
    Hive over()窗口函数及应用实例
    dubbo 分布式服务框架
    netty 网络框架
    实现JavaScript继承
    【ThoughtWorks西安】澳洲业务线招聘大量C#开发工程师
    使用Docker搭建自己的GitLab服务
  • 原文地址:https://www.cnblogs.com/Dhouse/p/7145495.html
Copyright © 2011-2022 走看看