zoukankan      html  css  js  c++  java
  • 排查问题工具

    在长期排查线上问题的过程中,总结了一些工具的用法和排查问题的思路,这里跟大家分享一下,在遇到类似的问题时,希望能给予一些帮助。

    首先讲讲工具, jvm 自带的一些工具是必须熟练掌握的,例如jstack, jmap, jstat等,它们可以帮我们去深入了解JVM正在做的事情,主要的适用领域有这些:

    1、jstack

    jstack可以告诉你当前所有JVM线程正在做什么,包括用户线程和虚拟机线程,你可以用它来查看线程栈,并且结合Lock信息来检测是否发生了死锁和死锁的线程。

    没事儿jstack一下,知道你的小伙伴正在做什么。

    另外在用top -H看到占用CPU非常高的pid时,可以转换成16进制后在jstack dump出来的文件中搜索,看看到底是什么线程占用了CPU。

    2、jstat

    stat,顾名思义就是提供一些统计信息,它可以告诉你当前的GC情况,包括GC次数、时间,具体的GC还可以结合gc.log文件去分析。

    一般来说,我们用jstat去查看GC情况,判断是否存在YGC或FGC频繁的情况,再去看gc.log和jamp dump内存,MAT分析来定位问题(后面会有一个case针对这种场景)。

    常用的用法是jstat -gcutil pid time_interval

    3、jmap

    排查GC问题必然会用到的工具,jmap可以告诉你当前JVM内存堆中的对象分布及其关系,当你dump堆之后可以用MAT分析,看看有哪些大对象,或者哪些类的实例特别多。

    常用用法:

    强制FGC:-histo:live

    dump堆:-dump:[live],format=b,file=dump.bin

    查看各代内存占用情况:-heap

    然后我们来介绍一些开源的工具,来增强JVM工具本身的作用。

    1、MAT( eclipse Memory Analyzer)

    GC分析必备,用于分析jmap或OOM时dump出来的内存快照,可以看到对象和引用关系。

    官方地址: http://www.eclipse.org/mat/

    2、top

    这个是 linux 自带的命令,查看系统资源消耗情况,可以看看CPU、内存、SWAP、I/O的消耗情况,需要特别注意的有几个值:

    ni,这个值如果特别高说明线程上下文切换开销较大,看看是不是开了太多的线程导致的

    res,这个代表了进程实际占用的内存

    swap,内存不足就会占用swap空间,这个时候一般应用的性能会急剧下降,需要特别关注

    3、HouseMD

    一个类似于BTrace的工具,用于对JVM运行时的状态进行追踪和诊断,作者是中间件团队的聚石。

    通常我们排查问题很多时候都在代码中加个日志,看看方法的参数、返回值是不是我们期望的,然后编译打包部署重启应用,十几分钟就过去了。HouseMD可以直接让你可以追踪到方法的返回值和参数,以及调用次数、调用平均rt、调用栈。甚至是类的成员变量的值、Class加载的路径、对应的ClassLoader,都可以用一行命令给你展现出来,堪称神器。

    更多的用法可以参考详细的WiKi: https://github.com/CSUG/HouseMD

    再偷偷告诉你,因为HouseMD是基于字节码分析来做的,所以理论上运行在JVM的语言都可以用它,包括Groovy,Clojure都可以。

    4、TBJMap

    通过jmap和MAT我们可以知道整个JVM堆的对象分布情况,但是有时候我们需要知道young/old/perm区分别有哪些对象的时候,就要用到TBJMap这个神器了。作者是中间件团队的叔同。

    他可以告诉你各个分代区各个Class的实例数、占用的空间,以及DirectMemory占用的空间等。

    用法很简单,一行命令即可。WiKi: https://github.com/alibaba/TBJMap

    5、tsar

    tsar是淘宝的采集工具,主要用来收集服务器的系统信息(如cpu,io,mem,tcp等)以及应用数据(如squid haproxy nginx等),tsar支持t实时查看和历史查看,方便了解应用和服务器的信息。

    Usage: tsar [options]

    Options:

    -check display last record for alert

    –check/-C display last record for alert.example:tsar –check / tsar –check –cpu –io

    –cron/-c run in cron mode, output data to file

    –interval/-i specify intervals numbers, in minutes if with –live, it is in seconds

    –list/-L list enabled modules

    –live/-l running print live mode, which module will print

    –file/-f specify a filepath as input

    –ndays/-n show the value for the past days (default: 1)

    –date/-d show the value for the specify day(n or YYYYMMDD)

    –merge/-m merge multiply item to one

    –detail/-D do not conver data to K/M/G

    –spec/-s show spec field data, tsar –cpu -s sys,util

    –help/-h help

    Modules Enabled:

    –cpu CPU share (user, system, interrupt, nice, & idle)

    –mem Physical memory share (active, inactive, cached, free, wired)

    –swap swap usage

    –tcp TCP traffic (v4)

    –udp UDP traffic (v4)

    –traffic Net traffic statistics

    –io Linux I/O performance

    –pcsw Process (task) creation and context switch

    –partition Disk and partition usage

    –tcpx TCP connection data

    –load System Run Queue and load average

    用不同的参数可以看到历史和实时信息,CPU、Load、内存、网络、QPS、rt等等你想要的监控数据几乎都能看到。

    目前tsar已经开源: http://tsar.taobao.org/

  • 相关阅读:
    队列加分项
    队列课下作业
    20162306 2017-2018-1 《程序设计与数据结构》第7周学习总结
    20162306 2017-2018-1 《程序设计与数据结构》第5周学习总结
    20162306陈是奇 第一次实验报告
    20162306 2017-2018-1 《程序设计与数据结构》第3周学习总结
    20162306 陈是奇 2017-2018-1 《程序设计与数据结构》第1周学习总结
    数据库实验补充
    2017-2018-1 20162304 实验二 树
    队列加分项
  • 原文地址:https://www.cnblogs.com/E-star/p/5460840.html
Copyright © 2011-2022 走看看