zoukankan      html  css  js  c++  java
  • 虚拟机丢包问题排查处理

    故障现象

    同一台物理机上的多台虚拟机同时出现应用服务超时、无法访问等现象,ping虚拟机和物理机丢包严重。

    故障原因

    物理机上某台虚拟机建立了大量连接,导致物理机连接追踪表被大量ESTABLISHED连接记录塞满,进而出现丢包现象。

    处理方法

    调整物理机内核参数,增大最大连接追踪记录数、减小ESTABLISHED、TIME_WAIT、CLOSE_WAIT、FIN_WAIT等连接记录的超时时间。

    排查过程

    一开始从业务层面排查,分析是否有某台虚拟机占用带宽的情况,但是排查监控和实时流量并没有发现问题,未果。第二次出现问题时,在宿主机上ping故障虚拟机,出现“ping: sendmsg: Operation not permitted”的报错:

    # ping 172.16.3.5
    PING 172.16.3.5 (172.16.3.5) 56(84) bytes of data.
    ping: sendmsg: Operation not permitted
    ping: sendmsg: Operation not permitted
    ping: sendmsg: Operation not permitted
    ping: sendmsg: Operation not permitted

    查看内核日志,报错如下:

    # dmesg | tail 
    [64802472.971773] nf_conntrack: table full, dropping packet
    [64802472.972242] nf_conntrack: table full, dropping packet
    [64802472.973668] nf_conntrack: table full, dropping packet
    [64802472.978622] nf_conntrack: table full, dropping packet
    [64802472.988458] nf_conntrack: table full, dropping packet
    [64802472.991945] nf_conntrack: table full, dropping packet
    [64802472.998772] nf_conntrack: table full, dropping packet
    [64802472.999542] nf_conntrack: table full, dropping packet
    [64802473.001464] nf_conntrack: table full, dropping packet
    [64802473.001768] nf_conntrack: table full, dropping packet

    发现是由于连接追踪表满导致丢包。其实这个问题出现过一次,当时是存在大量TIME_WAIT连接记录所致,现在这个问题是存在大量ESTABLISHED连接记录所致:

    # cat /proc/net/nf_conntrack | awk '/^.*tcp.*$/ {count[$6]++} END {for(state in count) print state, count[state]}'
    LAST_ACK 36
    SYN_RECV 52
    CLOSE_WAIT 350
    CLOSE 844
    ESTABLISHED 246265
    FIN_WAIT 4
    SYN_SENT 993
    TIME_WAIT 9996

    找到问题所在就好办了,通过调整相关内核参数解决:

    # sysctl -a | grep nf_conntrack
    net.nf_conntrack_max = 2097152
    net.netfilter.nf_conntrack_max = 2097152
    net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 30
    net.netfilter.nf_conntrack_tcp_timeout_time_wait = 30 
    net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60
    net.netfilter.nf_conntrack_tcp_timeout_established = 3600

    将以上参数写入/etc/sysctl.conf中,执行sysctl -p生效。

    另外还有net.netfilter.nf_conntrack_buckets参数,指定哈希表的大小。在4.8及以上的内核可以通过sysctl修改,在4.8之前的内核中是只读的,只能通过修改/sys/module/nf_conntrack/parameters/hashsize来修改。

    参考资料

    nf_conntrack: table full, dropping packet. 终结篇

    使用sysctl修改nf_conntrack_bucket

    [踩坑总结] nf_conntrack: table full, dropping packet

  • 相关阅读:
    Chrome 中的彩蛋,一款小游戏,你知道吗?
    Json对象与Json字符串互转(4种转换方式)
    [PHP自动化-进阶]005.Snoopy采集框架介绍
    [PHP自动化-进阶]004.Snoopy VS CURL 模拟Discuz.net登陆
    [PHP自动化-进阶]003.CURL处理Https请求访问
    [PHP自动化-进阶]002.CURL模拟登录带有验证码的网站
    [PHP自动化-进阶]001.CURL模拟登录并采集数据
    [注]2015中国程序员生存报告,你苦你先看@^@
    [JavaWeb基础] 016.Struts2 国际化配置
    [工具推荐]_iOS音频批量转换
  • 原文地址:https://www.cnblogs.com/ltxdzh/p/11288988.html
Copyright © 2011-2022 走看看