问题现象:
启动Tomcat后,10分钟不到界面就卡死,服务器CPU飙高,界面无法访问,现场工程只能通过手动频繁重启Tomcat来应急。
排查思路:
1、检查CPU高的原因,见另一篇文章 https://www.cnblogs.com/aligege/p/11448827.html
2、通过堆栈日志发现,几个CPU占用高的线程全是GC操作,推测出是内存溢出导致的频繁GC
3、检查内存占用高的对象,结果发现有个日志类占用异常,将近500W个实例。开始找研发沟通日志的使用场景
jmap -histo:live <PID> | head -1000
4、如果上面一步还无法定位到关键信息,那么需要拿到heap dump,生成离线文件,做进一步分析,此过程费时。命令:
jmap -dump:live,format=b,file=heap.hprof <PID>
问题分析:
经过第3步的分析,已经找到了数量大的对象,联想到某个业务的日志推送场景。通过SQL排查,发现相关数据确实很大。
问题的因是,日志接收服务挂了,导致堆积了大量的日志。而Tomcat启动后会将这些积压的日志全部加装到内存中等待推送。
解决办法:
1、日志推送改为小批量推送,一次最多推送1000条;
2、推送失败后,重试5次,如果还失败,则暂时放弃推送;1小时后再重试