服务器环境:centos6.7 + tomcat7.0.69 + jdk1.7.0_55 + mysql5.6.28
场景:服务刚开始用户体验变差,请求时间长,之后出现404,500等与服务器交互失败问题。重启后用户体验回升,半小时内问题没有再现。
日志中出现的问题有两个:
1、Cause: org.springframework.jdbc.CannotGetJdbcConnectionException: Could not get JDBC Connection; nested exception is org.apache.tomcat.dbcp.dbcp.SQLNestedException: Cannot get a connection, pool error Timeout waiting for idle object
2、Mar 06, 2017 10:59:53 AM org.apache.tomcat.util.net.JIoEndpoint$Acceptor run
SEVERE: Socket accept failed
java.net.SocketException: Too many open files
解决方案:
1、更改centos的单个文件最大句柄数为最大的65535,tomcat宕机的直接原因是 第二个问题 Too many open files
2、更改线程池的配置增加如下参数:
- maxWait="3000" 从池中取连接的最大等待时间,单位ms.
- initialSize="10" 初始化连接
- minIdle="10" 最小空闲连接
- maxIdle="150" 最大空闲连接
- maxActive="200" 最大活动连接
- validationQuery = "SELECT 1" 验证使用的SQL语句
- testWhileIdle = "true" 指明连接是否被空闲连接回收器(如果有)进行检验.如果检测失败,则连接将被从池中去除.
- testOnBorrow = "false" 借出连接时不要测试,否则很影响性能
- timeBetweenEvictionRunsMillis = "30000" 每30秒运行一次空闲连接回收器
- minEvictableIdleTimeMillis = "1800000" 池中的连接空闲30分钟后被回收
- numTestsPerEvictionRun="10" 在每次空闲连接回收器线程(如果有)运行时检查的连接数量
- removeAbandoned="true" 连接泄漏回收参数,当可用连接数少于3个时才执行
- removeAbandonedTimeout="180" 连接泄漏回收参数,180秒,泄露的连接可以被删除的超时值
问题原因:
1、网络延迟增加;
2、tomcat的dbcp线程池设置偏小,当请求突发的时候出现线程池报错;
3、同时,由于对服务的请求及服务向数据库发起的服务的增加,在突发情况中击穿数据库限制超出最大句柄数
4、导致进程挂死。
原因分析过程:
一、分析服务的系统日志,获取报错种类及第一次发生的时间节点
二、分析服务的系统日志,查获所有数据库访问请求的执行时间点,服务的请求时间;
三、统计每一秒内的数据库请求总数量,各个请求的总数量,各个请求失败总数量
四、分析数据库日志,获取处理时间长及失败的SQL语句的执行时间及处理时长
五、对比三和四步骤的结果初略的判断是否存在网络问题
其中频繁使用的小技巧:
1、notepad++的正则查找:
a、搜索的设置如下图:
b、使用正则查找行中有10.6.6.5或Query_time或order by c.isTop DESC 三个字段的行
^.*10.6.6.5.*$|^.*Query\_time.*$|^.*order by c.isTop DESC\, c.id asc.*$
2、excel中的vlookup公式,筛选、分列、多列排序、分类汇总、Ctrl+G>定点条件>可见单元格、插入图表