zoukankan      html  css  js  c++  java
  • Hadoop记录-Ganglia监控HDFS和HBase指标说明

    HDFS相关

    datanode相关

    参数解释
    dfs.datanode.blockChecksumOp_avg_time 块校验平均时间
    dfs.datanode.blockChecksumOp_num_ops 块检验次数
    dfs.datanode.blockReports_avg_time 块报告平均时间
    dfs.datanode.blockReports_num_ops 块报告次数
    dfs.datanode.block_verification_failures 块验证失败次数
    dfs.datanode.blocks_read 从硬盘读块总次数
    dfs.datanode.blocks_removed 删除块数目
    dfs.datanode.blocks_replicated 块复制总次数
    dfs.datanode.blocks_verified 块验证总次数
    dfs.datanode.blocks_written 向硬盘写块总次数
    dfs.datanode.bytes_read 读出总字节包含crc验证文件字节数
    dfs.datanode.bytes_written 写入总字节数(在写入每个packet时计数)
    dfs.datanode.copyBlockOp_avg_time 复制块平均时间
    dfs.datanode.copyBlockOp_num_ops 复制块次数
    dfs.datanode.heartBeats_avg_time 向namenode汇报平均时间
    dfs.datanode.heartBeats_num_ops 向namenode汇报总次数
    dfs.datanode.readBlockOp_avg_time 读块平均时间(单位ms)
    dfs.datanode.readBlockOp_num_ops 读块总次数
    dfs.datanode.reads_from_local_client 从本地读入块次数
    dfs.datanode.reads_from_remote_client 从远程读入块次数
    dfs.datanode.replaceBlockOp_avg_time 替换块平均时间(负载均衡策略)
    dfs.datanode.replaceBlockOp_num_ops 替换块次数(负载均衡策略)
    dfs.datanode.volumeFailures notfound
    dfs.datanode.writeBlockOp_avg_time 写块平均时间
    dfs.datanode.writeBlockOp_num_ops 写块总次数一般和dfs.datanode.blocks_written
    dfs.datanode.writes_from_local_client 写本地次数
    dfs.datanode.writes_from_remote_client 写远程次数

    JVM相关

    参数解释
    jvm.metrics.gcCount gc总次数
    jvm.metrics.gcTimeMillis gc总耗时(ms)
    jvm.metrics.logErro jvm Error次数
    jvm.metrics.logFatal jvm出现fatal次数
    jvm.metrics.logInfo jvm 出现Info的次数
    jvm.metrics.logWarn jvm出现warn的次数
    jvm.metrics.maxMemoryM jvm试图使用最大内存(M),如果没有限制返回Long.MAX_VALUE
    jvm.metrics.memHeapCommittedM jvm提交堆内存大小
    jvm.metrics.memHeapUsedM jvm使用堆内存大小
    jvm.metrics.memNonHeapCommittedM jvm非堆内存已提交大小
    jvm.metrics.memNonHeapUsedM jvm非堆内存已使用大小
    jvm.metrics.threadsBlocked 正在阻塞等待监视器锁的线程数目
    jvm.metrics.threadsNew 尚未启动的线程数目
    jvm.metrics.threadsRunnable 正在执行状态的线程数目
    jvm.metrics.threadsTerminated 已退出线程数目
    jvm.metrics.threadsTimedWaiting 等待另一个线程执行取决于指定等待时间的操作的线程数目
    jvm.metrics.threadsWaiting 无限期地等待另一个线程来执行某一特定操作的线程数目

    RPC相关

    参数解释
    rpc.metrics.NumOpenConnections number of open connections rpc连接打开的数目
    rpc.metrics.ReceivedBytes number of bytes received rpc收到的字节数
    rpc.metrics.RpcProcessingTime_avg_time Average time for RPC Operations in last interval rpc在最近的交互中平均操作时间
    rpc.metrics.RpcProcessingTime_num_ops rpc在最近的交互中连接数目
    rpc.metrics.RpcQueueTime_avg_time rpc在交互中平均等待时间
    rpc.metrics.RpcQueueTime_num_ops rpc queue中完成的rpc操作数目
    rpc.metrics.SentBytes number of bytes sent rpc发送的数据字节
    rpc.metrics.callQueueLen length of the rpc queue rpc 队列长度
    rpc.metrics.rpcAuthenticationFailures number of failed authentications rpc 验证失败次数
    rpc.metrics.rpcAuthenticationSuccesses number of successful authentications 验证成功数
    rpc.metrics.rpcAuthorizationFailures number of failed authorizations 授权失败次数
    rpc.metrics.rpcAuthorizationSuccesses number of successful authorizations 成功次数

    MapReduce相关

    参数解释
    mapred.shuffleInput.shuffle_failed_fetches 从map输出中取数据过程中获取失败次数
    mapred.shuffleInput.shuffle_fetchers_busy_percent 在获取map输出过程中并行获取线程忙碌占总并行获取线程百分比
    mapred.shuffleInput.shuffle_input_bytes shuffle过程中读入数据字节
    mapred.shuffleInput.shuffle_success_fetches 从map输出中取数据过程中获取成功次数
    mapred.shuffleOutput.shuffle_failed_outputs 向reduce发送map输出失败次数
    mapred.shuffleOutput.shuffle_handler_busy_percent 向reduce发送map输出中server线程忙碌占总工作线程(在tasktracker.http.threads中配置)百分比。
    mapred.shuffleOutput.shuffle_output_bytes shuffle过程中输出数据字节
    mapred.shuffleOutput.shuffle_success_outputs 向reduce成功
    mapred.tasktracker.mapTaskSlots 设置map槽数
    mapred.tasktracker.maps_running 正在运行的map数
    mapred.tasktracker.reduceTaskSlots 设置reduce槽数
    mapred.tasktracker.reduces_running 正在运行的reduce数
    mapred.tasktracker.tasks_completed 完成任务数
    mapred.tasktracker.tasks_failed_ping 因tasktracker与task交互失败导致的失败的task数目
    mapred.tasktracker.tasks_failed_timeout 因task未在mapred.task.timeout配置的(默认10分钟)时间内汇报进度而超时kill的task数目

    rpc detailed 相关

    参数解释
    rpc.detailed-metrics.canCommit_avg_time rpc询问是否提交任务平均时间
    rpc.detailed-metrics.canCommit_num_ops rpc询问是否提交任务次数
    rpc.detailed-metrics.commitPending_avg_time rpc报告任务提交完成,但是该提交仍然处于pending状态的平均时间
    rpc.detailed-metrics.commitPending_num_ops rpc报告任务提交完成,但是该提交仍然处于pending状态的次数
    rpc.detailed-metrics.done_avg_time rpc报告任务成功完成的平均时间
    rpc.detailed-metrics.done_num_ops rpc报告任务成功完成的次数
    rpc.detailed-metrics.fatalError_avg_time rpc报告任务出现fatalerror的平均时间
    rpc.detailed-metrics.fatalError_num_ops rpc报告任务出现fatalerror的次数
    rpc.detailed-metrics.getBlockInfo_avg_time 从指定datanode获取block的平均时间
    rpc.detailed-metrics.getBlockInfo_num_ops 从指定datanode获取block的次数
    rpc.detailed-metrics.getMapCompletionEvents_avg_time reduce获取已经完成的map输出地址事件的平均时间
    rpc.detailed-metrics.getMapCompletionEvents_num_ops reduce获取已经完成的map输出地址事件的次数
    rpc.detailed-metrics.getProtocolVersion_avg_time 获取rpc协议版本信息的平均时间
    rpc.detailed-metrics.getProtocolVersion_num_ops 获取rpc协议版本信息的次数
    rpc.detailed-metrics.getTask_avg_time 当子进程启动后,获取jvmtask的平均时间
    rpc.detailed-metrics.getTask_num_ops 当子进程启动后,获取jvmtask的次数
    rpc.detailed-metrics.ping_avg_time 子进程周期性的检测父进程是否还存活的平均时间
    rpc.detailed-metrics.ping_num_ops 子进程周期性的检测父进程是否还存活的次数
    rpc.detailed-metrics.recoverBlock_avg_time 为指定的block开始恢复标记生成的平均时间
    rpc.detailed-metrics.recoverBlock_num_ops 为指定的block开始恢复标记生成的次数
    rpc.detailed-metrics.reportDiagnosticInfo_avg_time 向父进程报告任务错误消息的平均时间,该操作应尽可能少,这些消息会在jobtracker中保存
    rpc.detailed-metrics.reportDiagnosticInfo_num_ops 向父进程报告任务错误消息的次数
    rpc.detailed-metrics.startBlockRecovery_avg_time 开始恢复block的平均时间
    rpc.detailed-metrics.startBlockRecovery_num_ops 开始恢复block的次数
    rpc.detailed-metrics.statusUpdate_avg_time 汇报子进程进度给父进程的平均时间
    rpc.detailed-metrics.statusUpdate_num_ops 汇报子进程进度给父进程的次数
    rpc.detailed-metrics.updateBlock_avg_time 更新block到新的标记及长度的平均操作时间
    rpc.detailed-metrics.updateBlock_num_ops 更新block到新的标记及长度的次数

    HBase相关

    参数解释
    hbase.regionserver.blockCacheCount 内存中缓存块(block cache)数。缓存中StoreFiles(HFiles)的块(block)数量。
    hbase.regionserver.blockCacheEvictedCount 因超出堆大小限制,从缓存中释放的块数量。
    hbase.regionserver.blockCacheFree 可用的缓存块容量。
    hbase.regionserver.blockCacheHitCachingRatio 缓存块的缓存命中率(0-100)。读取的缓存命中率被配置为查看缓存(如cacheblocks=true)。
    hbase.regionserver.blockCacheHitCount StoreFiles(HFiles)从缓存中读取的块数量。
    hbase.regionserver.blockCacheHitRatio 缓存块的命中率(0-100).包括所有读请求,尽管cacheBlocks=false的读出会被计为cache丢失。
    hbase.regionserver.blockCacheMissCount 被StoreFiles (HFiles)请求但是未从缓存中读出的块数量。
    hbase.regionserver.blockCacheSize 内存中块缓存的容量,特指被blockcache占用的内存容量。
    hbase.regionserver.compactionQueueSize Compaction队列大小,用于compaction的RegionServer中的Store个数。
    hbase.regionserver.flushQueueSize MemStore中等待flush操作的排队region数量。
    hbase.regionserver.fsReadLatency_avg_time 文件系统延迟(ms)。从HDFS读操作的平均时间。
    hbase.regionserver.memstoreSizeMB 当前RegionServer中所有Memstore的总容量(MB)。
    hbase.regionserver.requests 总 的读和写请求次数。请求相当于RegionServer的RPC调用,因此一个Get相当于一次请求,但是哪怕Scan的caching值设置为 1000,对SCAN每个“下一次”调用仅相当于一次请求,(例如,非每行)。对于大数据块的请求,每个 HFile对应一次请求。
    hbase.regionserver.storefileIndexSizeMB RegionServer中 StoreFile文件索引大小的总和(MB)。
  • 相关阅读:
    linux从入门到精通(五)(更改文件的所有者,所属组)
    【洛谷】4180:【模板】严格次小生成树[BJWC2010]【链剖】【线段树维护最大、严格次大值】
    CF980E The Number Games【树链剖分/线段树】
    【POJ】1419:Graph Coloring【普通图最大点独立集】【最大团】
    【HDU】2866:Special Prime【数论】
    【BZOJ】1415: [Noi2005]聪聪和可可【期望】【最短路】【记忆化搜索】
    【BZOJ】2561: 最小生成树【网络流】【最小割】
    【洛谷】3966:[TJOI2013]单词【AC自动机】【fail树】
    【10.17校内测试】【二进制数位DP】【博弈论/预处理】【玄学(?)DP】
    【洛谷】2602: [ZJOI2010]数字计数【数位DP】
  • 原文地址:https://www.cnblogs.com/xinfang520/p/10452223.html
Copyright © 2011-2022 走看看