1、事件过程:
下面是9.26日出现断网事件的告警邮件内容,日期和时间加红:
【事件告警】一级事件 北京XXx机房网络故障 事件
(1)业务影响开始时间:2018-9-26 15:50
(2)预计解决时间:未知
(3)影响范围:大数据,云平台业务,以及各产业应用,在线设备大范围掉线
(4)级别:一级
(5)更新周期:1小时
2、日志分析
在运维部门同事的协助下,我们下载了一台centos系统上面的趋势杀毒软件的日志文件进行了分析。
下面是趋势杀毒软件的日志(ds_agent.log)内容分析及相关截图:
//2018-09-26 15:48:59 时分开始,杀毒软件更新了一个带过滤功能的插件,看名字就知道功能了,之后立即引发了断网事件:
plugin-vfs_filter_2_6_32_431_20_5_el6_x86_64-redhat_el6-9.6.2-8627.x86_64(系统防病毒插件)
plugin-filter_2_6_32_696_3_2_el6_x86_64-redhat_el6-9.6.2-8627.x86_64(入侵防护插件)
//大约18:18分左右关闭了趋势杀毒软件,正好也是网络恢复正常的时间:
//下面是趋势科技的日文网站上面的内容:
http://esupport.trendmicro.com/solution/ja-jp/1112403.aspx?print=true
上面日志里面的Plugin-Filter-*.dsp 插件为入侵防御功能:
//趋势防病毒控制中心的日志信息截图如下:
//依据上述的5个证据,我们给出断网事件时间点:
->运营商没有经过上线测试,以默认策略的方式批量下发更新入侵防护插件(9.26日15:48)
->入侵防御模块发现有端口扫描事件(可能由病毒扫描引起),阻断所有的TCP连接(9.26日15:50)
->断网事件开始陆续发生(9.26日15:50 发布邮件预警)
->运营商下发策略批量关闭趋势杀毒软件(9.26日18:18)
->应用恢复正常(9.26日 19:01)
3、分析结论
通过对杀毒软件客户端日志的分析,确认断网事故直接始作甬者为趋势杀毒软件,9.26日下午15:48分左右使用了默认策略批量更新了带过滤阻断功能的入侵防护插件,运营商没有对下发策略进行上线测试,使用了默认策略批量下发部署,来自其它网段的病毒进行批量远程端口扫描事件引发了入侵防护插件阻断本机所有TCP连接的连锁反应,最终导致了本次断网事故。
4、整改措施
调整趋势软件的入侵防护策略,对于病毒的扫描行为只预警不阻断,有阻断要求的事件上报运维负责人,由负责人安排工程师进行手工操作(加黑名单方式);
任何阻断操作、重大更新和批量策略下发等操作,必须进行上线前测试,在测试环境下由工程师出具详细的上线测试报告,确认对XX应用无影响后再部署到生产环境。