问题:
性能测试过程中,10个用户并发持续运行几分钟后,服务器停止响应。
从LR的错误来看,有下面几种:
1) Error -27728: Step download timeout (120 seconds) has expired when downloading non-resource(s)
2) Error -27791: Server "appsvr01" has shut down the connection prematurely [MsgId: MERR-27791]
3) Error -27796: Failed to connect to server "appsvr01:38080": [10061] Connection refused
4) Error -26372: ContentCheck Rule "stackTrace" in Application "BIOffice" triggered. Text "","stackTrace":"" matched (count=1) [MsgId: MERR-26372]
但后两种应该是由前面两种错误引起的间接错误。从出错顺序上看,是先出现前面的超时错误,最后整个服务器都停止响应了。
定位:
1) 用客户端连接该服务器,没有响应;
2) Netstat看到服务器端口还在侦听,但telnet该端口被强制断开了,说明WebServer已经不正常了;
3) 从服务器的log看到有OutOfMemory的错误,判断是和内存泄漏有关。
重现及分析:
1) 设置-verbose:gc -Xloggc:./gc.log 打印gc日志,重新运行脚本,重现该问题。
从gc日志中看到开始运行时,每隔一段时间会进行垃圾回收,不过内存堆栈的使用还是越来越大,最后内存不够用,频繁做Full GC引起服务器停止响应
再分析响应时间的几个波动,和GC有密切的关系。当服务器进行GC时,响应时间就迅速变慢。
解决:
修改代码,确保资源释放,不出现内存泄漏,问题解决。
总结:
1) 内存不足,频繁的Full GC会导致Tomcat服务器没有响应(先是Timeout,后来根本没有响应,telnet该端口也被自动断开,但netstat看到端口还在侦听)
Full GC过程中,对响应时间有很大的影响