问题:一直在困惑如果一台服务器的网络发生故障或者断开时,怎么第一时间发现并去排查。
思路:利用zabbix平台监控服务器,监控ping这一项,设置一个报警,并使用脚本去提醒与通知,可使用邮件报警/短信报警/钉钉报警/微信报警等。
相关链接:
脚本使用钉钉报警:https://www.cnblogs.com/subsea/p/13532736.html
zabbix常用监控项:https://www.cnblogs.com/tyindon/p/10419535.html
一、环境准备
zabbix搭建:centos7.6
zabbix版本:4.0
监控测试的主机:windows10
告警的接收:钉钉
二、添加一台主机,用zabbix监控并测试
1.下载安装包,在测试主机上安装(windwos系统)
双击安装,输入“hostname”;“客户端的ip”;“zabbix的ip”
2.在zabbix添加主机,并使用一个模板监控
登录zabbix管理界面,选择“配置”-“主机-”“创建主机”
填入主机的基本信息;并在”模板“-添加”Template OS Windows“模板
三、添加ping报警到模板里面
登录zabbix平台,单击“配置”-“模板”-“Template OS Windows” (这里由于是监控windows主机,而且我使用了这个自带的模板作为监控。如果你没用或者用的其他模板,请换你的模板)
选择”触发器“-创建”触发器“
问题表达式插入:{Template OS Windows:agent.ping.nodata(3m)}=1
解释:如果在3分钟监控ping都不返回数据,提示报警
恢复表达式插入:{Template App Zabbix Agent:agent.ping.last(3m)}=1
解释:如果在3分钟监控ping都能得到数据,提示问题已恢复
四、配置脚本设置钉钉自动发送报警
这里我已经配置好了,参考链接:https://www.cnblogs.com/subsea/p/13532736.html
五、关掉客户机做测试