#!/bin/sh ret_ok=1 ret_warn=2 ret_critical=3 ret_unknown=4 info_count=`ps -aux | awk 'BEGIN {cnt=0} /[^-c] dotnet GameServer.dll/{++cnt} END {print cnt}'` process_count=$((${info_count}-1)) if [[ ${process_count} < 6 ]]; then echo ${ret_critical} else echo ${ret_ok} fi
这里还有一个带参数的以供参考
#!/bin/bash #port on each server port=$1 #result code ret_ok=1 ret_warn=2 ret_critical=3 ret_unknown=4 #get heartbeat message #url:http://127.0.0.1:9002/heartbeat curl_result=`curl -m 3 -s http://127.0.0.1:$port/heartbeat` if [[ ${curl_result} == *"alive"* ]]; then echo ${ret_ok} else echo ${ret_critical}
ps -aux查出来进程,用awk正则匹配,然后输出匹配行数,减去awk本身,其中进程名那里可以使用变量,这里图省事就写死了,反正以后可以再改
然后再在zabbix中添加
[root@zabbiclient1 zabbix_agentd.conf.d]# pwd /usr/local/zabbix/etc/zabbix_agentd.conf.d [root@zabbiclient1 zabbix_agentd.conf.d]# ll check_process.conf -rw-r--r-- 1 root root 533 Dec 26 2013 check_process.conf [root@zabbiclient1 zabbix_agentd.conf.d]# cat check_process.conf UserParameter=check.dotnet,/etc/zabbix/scripts/check_dotnet_running ##注意check.crontab必须和下面创建item时的key相对应
如果是带参数的,就在逗号后边的command后边加上[]中间括着参数,比如
UserParameter=check.dotnet[*],/etc/zabbix/scripts/check_dotnet_running $1
在zabbix client机器上include 相关文件,
[root@zabbiclient1 etc]# pwd /usr/local/zabbix/etc [root@zabbiclient1 etc]# ls zabbix_agent.conf zabbix_agent.conf.d zabbix_agentd.conf zabbix_agentd.conf.d [root@zabbiclient1 etc]# cat zabbix_agentd.conf | grep -v "#" | grep -v "^$" PidFile=/tmp/zabbix_agentd.pid LogFile=/tmp/zabbix_agentd.log DebugLevel=4 Server=192.168.10.134 ServerActive=192.168.10.134 Hostname=zabbixclient1 Include=/usr/local/zabbix/etc/zabbix_agentd.conf.d/check_process.conf ###Include该文件!
3: 下面关键的重点是通过zabbix_get 获取check.dotnetkey的值,这个值在创建trigger时时需要,否则
trigger表达式填写不正确,就无法触发trigger
当我将crond进程在134机器上stop掉的时候,在133机器上获取值
[root@zabbiclient2 ~]# /usr/local/zabbix/bin/zabbix_get -s 192.168.10.134 -k check.dotnet
3
如果是有参数的,就是这样测试/usr/local/zabbix/bin/zabbix_get -s 192.168.10.134 -k check.dotnet[5],并在创建模板的时候在key中加入中括号加入参数
下面就创建一个模板,我创建的模板名为apptemplate,在模板里面创建一个item,crond is running,update interval 我设置为30s,见
然后创建一个trigger,trigger名为:dotnet does not work, 表达式值为{apptemplate:check.crontab.last(0)}=3
Severity 选择disaster,点save按钮即可创建。见附件
4:然后就可以在134机器上手动执行service dotnet stop,看看是否触发trigger,当然生产系统我就不完活了,你们自己慢慢玩吧
或另外一种方式:
Zabbix监控一个服务是否存在
有两种方法:
1:数进程数
接着创建trigger:
还有一种情况,例如:iptables,尽管它启动了,但不能通过ps –ef | grep iptables 来数进程数,这个时候就需要另外一种访问来处理了,见附件:
接着创建trigger,如下: