线上运行的网站,突然变卡,甚至挂掉,怎么来快速定位问题和解决问题呢,我先总结下自己工作中的经验。
1.在网站中存放一个静态页面,放一张图,页面上可以写个简单JS,当加载的时候开始计算时间,当页面加载完成,把总共加载时间弹出页面。这个静态页面的作用是检测服务器带宽是否超出,如果带宽超出会非常慢。
2.查看项目中用到的各个服务器数据库的连接数,和慢SQL,慢SQL,据我的经验,10次出现问题,有8次是慢SQL导致的。慢SQL和mysql当前数据库连接数的查看方法如下:
command:query 是执行状态
command:sleep 是空闲状态
查询当前执行时间超过50ms的慢SQL
SELECT * FROM INFORMATION_SCHEMA.PROCESSLIST WHERE TIME > 50 AND command = 'query' ORDER BY state DESC LIMIT 0,10000
显示所有连接
SHOW FULL PROCESSLIST
KILL到一个连接
KILL 256115
查询连接了这个数据库的服务器的请求数
SELECT hostid,COUNT(hostid) FROM
(SELECT SUBSTRING_INDEX(HOST,':',1) AS hostid FROM INFORMATION_SCHEMA.PROCESSLIST WHERE TIME > 5 AND command = 'sleep' LIMIT 0,10000) AS hosttable
GROUP BY hostid
ORDER BY COUNT(hostid) DESC
查看阻塞的进程,并kill掉
SELECT * FROM INFORMATION_SCHEMA.PROCESSLIST WHERE command !='Sleep' LIMIT 100000
KILL 811478
3.利用windos server服务器的性能监测器,查看最新的并发连接数,这个连接数到底多少合适是不固定的,在网站运行正常的时候,要清楚大致的连接数,在有出现问题的时候,再看下连接数是否猛的增加。
当然,实际工作中,连接数一但过高可能有两个问题造成,1个是有问题SQL,就是某SQL语句执行时间异常缓慢,造成请求响应过慢,导致连接数过高。还一个就是程序中的某个方法,执行时间过长,也会导致请求响应慢,连接数过高。
4.查看系统错误日志,查询错误出现那个时间段的,频繁出现的错误信息,看看是哪个方法导致错误过多,如果有程序中关键方法的耗时监控的话,就更好了,找出那个出现问题的方法,代码排查。
欢迎各位大神一起来交流分享。