时间:18.11.22
一. 起由:
公司最近因业务,有大量注册,每天大约几万,貌似也不太高?
晚上8点左右,网站后台,前台突然大面积提示502.网站几乎瘫痪。买的阿里云的负载均衡和读写分离。分别是5台服务器和1主2从。
查了一下阿里云及服务器各项负载情况。发现其中一台只读数据库cpu高达98%。主实例正常。另一台只读cpu20%。其他均正常。
二. 解决:
发现是只读DB的问题,但实际上主实例和另一台db都没问题,不该直接网站都瘫痪啊。
没办法,只能把高cpu的DB重启,重启后发现另一台又高了。没办法。只能临时把网站连接地址改回主实例的地址。网站恢复正常。
三. 后续:
第二天找了阿里工单提问,只说因部分sql较慢,导致的cpu过高。但貌似这解释不是很合理。又查了下QPS,TPS但都不高,最高一百多。
主实例和两台只读负载情况。
目前优化了sql,观察看看是否还会出现问题。