今天早上7:00开始的从阿里云虚拟机到物理机的切换(详见切换至物理机验证“黑色1秒”是否与虚拟机有关),由于遭遇阿里云网络问题提前结束,14:38更改了DNS解析将流量切换回虚拟机。
网络问题是我们在14:30左右发现的,当时用浏览器打不开网站。用Firefox测试,显示连接超时。
Ping发现很多丢包:
780 packets transmitted, 737 packets received, 5.5% packet loss
round-trip min/avg/max/stddev = 9.142/10.310/25.092/1.248 ms
从服务器上的Windows性能监视器看请求量没有明显变化,可能是部分网络线路的用户受影响。我们用的是上海电信的网络,用其他网络测试,可以正常访问。
不知道园子里有多少朋友受到了这个网络问题的影响,如果您遭遇了,请谅解由此给您带来的麻烦!
我们通过IIS日志进一步分析了物理机的网络情况。物理机用的是云服务器的公网网络,没有走SLB的网络。
分析的时间段是7:10-14:30,分析的指标是time-taken。time-taken的记录开始于http.sys接收到来自客户端的请求的第一个字节,结束于在将响应内容发送给客户端后,http.sys收到客户端对最后一个TCP包的ACK或者客户端重置了TCP连接,所以time-taken包含了网络延迟。
【IIS日志分析情况】
请求总数:9787509(978万),超过10秒的请求数:25331(占比0.26%),超过1分钟的请求数:4058,最长time-taken:545秒(9分钟)。
这个网络情况不容乐观。而如果走SLB,网络情况会好很多。
【物理机测试情况】
未出现黑色1秒,但由于观察时间不够,不能最终确认。
在物理机上观察到QPS为1149时,CPU占用只有18%(32核)。而在虚拟机上,QPS达800时,CPU就100%(8核)。