zoukankan      html  css  js  c++  java
  • Linux 2.6.16 TCP连接速度异常的问题分析

    版权声明:本文由余子军原创文章,转载请注明出处: 
    文章原文链接:https://www.qcloud.com/community/article/104

    来源:腾云阁 https://www.qcloud.com/community

    发现访问公司某些业务时,速度非常不稳定,并且整体慢于竞争对手。分析认为SESU10母盘上内核TCP拥塞控制算法和Windows的Ack频率控制的策略存在不兼容情况。

    目前至少确认 2.6.16内核版本存在此问题;打TCP优化补丁或者更换Tlinux以后可以解决问题。

    问题现象:

    在体验网环境下测试:大文件下载的情况下,百度的下载速度平均在600KBPS,我们的下载速度平均低于100Kbps;互娱Webgame情况下,TNT业务下载速度大约是DDT的25%。

    这里是一个典型的下载速度曲线:

    我们的服务器的曲线:(纵轴单位:包/s)

    百度的服务器下载的曲线:

    重现该问题的测试环境:

    网络: 公司体验网,普通联通4M ADSL

    服务器:Linux64位服务器, 深圳机房。

    服务器程序: Apache,nws(自研webserver)

    客户端: Windows XP, Windows7,任意浏览器或者旋风(单线程下载)

    测试工具:wireshark, httpwatch

    测试连接:分别是自建CDN、百度下载、深圳DC+Apache

    问题分析:

    通过客户端抓包分析发现速度很慢的段有两个问题:

    1. 服务器端总是等到前面的数据包确认以后才发送第二个包

    2. Windows总是等到200ms左右才发送ACK确认。

    对于Windows端的行为, 为了防止ACK过多导致网络压力,Ms TCP协议栈在每收到一个数据包时,启动一个200ms定时器,直到收到其他数据包或者定时器过期时才发送ACK包。

    通过设置注册表选项 TcpAckFrequency 参数为1关闭 Ack delay以后,实验发现下载速度恢复正常,无法重现下载速度慢的问题。

    To configure the max outstanding ACKs in Windows XP/2003/Vista/2008:

    [HKEYLOCALMACHINE SYSTEM CurrentControlSet Services Tcpip Parameters Interfaces {Adapter-id}]

    TcpAckFrequency = 1 (Default=2, 1=Disables delayed ACK, 2-n = If n outstanding ACKs before timed interval, sent ACK)

    因为无法强制用户通过修改注册表避免问题,并且竞争对手也没有看到类似问题,因此只能从linux端解决。

    Linux这一端,首先怀疑和nagle算法有关系,在nws服务器上设置TCP_NODELAY以后仍然可以重现,可以排除Nagle算法的影响。 (实际上nws每次发送大数据包或者直接使用sendfile,不太会收到nagle算法影响) 其次Apache,nws都可以重现这个问题,比较怀疑操作系统本身有缺陷。

    因为每次linux仅发送一个数据包,因此怀疑拥塞窗口的问题,推测问题如下:

    初始情况下,客户端回复一个ACK时,拥塞窗口增大,每次发送多个数据包,因此刚开始可以有较快的传输速度;因为网络延时抖动或丢包导致服务器协议栈判定数据包超时,重置拥塞窗口为1,每次仅发送一个数据包,收到客户端200ms回包,时仍然认为超时,同时调整RTT;直到RTT增大到200ms不算超时为止,拥塞窗口得以扩大,可以发送多个数据包,传输速度增快,如此循环。

    通过测试增大初始拥塞窗口为10 (更换内核加载架平新技术组的TCP优化模块实现),下载速度恢复正常。

    附旋风测试选项:

    参考:
    http://smallvoid.com/article/winnt-nagle-algorithm.html
    http://support.microsoft.com/kb/214397/en-us

  • 相关阅读:
    Android调用系统相机和相册并解决data为空,OOM,图片角度不对的问题
    Android 工作流提交审批填写审批意见PopWindow工具类
    解决ionic安装不上的方法
    nodeJs 报maximum call stack size exceeded js
    命令行运行ionic run android 出现running one or more of the platforms Error
    Ionic run android失败解决方法。
    Android Scrollview嵌套下listView动态加载数据,解决onScrollChanged执行多次数据重复问题
    Android 自定义ListView动态加载数据
    Android ListView显示不同样式的item
    day 43
  • 原文地址:https://www.cnblogs.com/purpleraintear/p/6015494.html
Copyright © 2011-2022 走看看