zoukankan      html  css  js  c++  java
  • zabbix3.4.7触发器表达式详解

                  zabbix触发器表达式详解

    概述:触发器中的表达式使用很灵活,我们可以创建一个复杂的逻辑测试监控,触发器表达式形式如下:

    {<server>:<key>.<function>(<parameter>)}<operator><constant>

    {主机:key.函数(参数)}<表达式>常数,具体的例子,请接着往下走,很简单

    Functions函数:触发器functions可以引用检索到的值,当前时间或者其他元素。触发器表达式支持的function完整列表请点击官网地址 supported functions

    Function参数----大多数数值functions可以使用秒来作为参数。你可以使用前缀“#”来表示它有不同的含义

    FUNCTION CALL描述
    sum(600) 600秒内的总和
    sum(#5) 最新5个值的和

    last函数使用不同的参数将会得到不同的值,#2表示倒数第二新的数据。例入从老到最新值为1,2,3,4,5,6,7,8,9,10,last(#2)得到的值为9,last(#9)得到的值为2。last函数必须包含参数。
    AVG,count,last,min和max函数还支持额外的参数,以秒为单位的参数time_shift(时间偏移量)。例如avg(1h,1d),那么将会获取到昨天的1小时内的平均数据。

    [warning]备注:触发器表达式需要使用history历史数据来计算,如果history不可用(time_shift时间偏移量参数无法使用),因此history记录一定要保留长久一点,至少要保留需要用的记录。[/warning]
    触发器表达式可以使用单位符号来替代大数字,例如5m替代300,或者1d替代86400,1k替代1024字节等等。

    操作符

    优先级操作定义
    1 /
    2 *
    3 -
    4 +
    5 < 小于. 用法如下:
    A<B ⇔ (A<=B-0.000001)
    6 > 大于. 用法如下:
    A>B ⇔ (A>=B+0.000001)
    7 # 不等于.用法如下:
    A#B ⇔ (A<=B-0.000001) | (A>=B+0.000001)
    8 = 等于. T用法如下:
    A=B ⇔ (A>B-0.000001) & (A<B+0.000001)
    9 & 逻辑与
    10 | 逻辑或

    触发器示例

    示例---触发器名称:Processor load is too high on www.zabbix.com

    {www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5

    触发器说明:

    www.zabbix.com:host名称

    system.cpu.load[all,avg1]:item值,一分内cpu平均负载值

    last(0):最新值

    >5:最新值大于5

    如上所示,www.zabbix.com这个主机的监控项,最新的CPU负载值如果大于5,那么表达式会返回true,这样一来触发器状态就改变为“problem”了。

    示例二---触发器名称:www.zabbix.com is overloaded

    {www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5|{www.zabbix.com:system.cpu.load[all,avg1].min(10m)}>2

    当前cpu负载大于5或者最近10分内的cpu负载大于2,那么表达式将会返回true.

    示例三---触发器名称:/etc/passwd has been changed,使用函数 diff():

    {www.zabbix.com:vfs.file.cksum[/etc/passwd].diff(0)}>0

    /etc /passwd最新的checksum与上一次获取到的checksum不同,表达式将会返回true. 我们可以使用同样的方法监控系统重要的配置文件,例如/etc/passwd,/etc/inetd.conf等等。这些zabbix一般都会自带,没带 的你自己加上吧。

    示例四----触发器名称:Someone is downloading a large file from the Internet,使用函数 min:

    {www.zabbix.com:net.if.in[eth0,bytes].min(5m)}>100K

    当前主机网卡eth0最后5分钟内接收到的流量超过100KB那么触发器表达式将会返回true

    示例五---触发器名称:Both nodes of clustered SMTP server are down

    {smtp1.zabbix.com:net.tcp.service[smtp].last(0)}=0&{smtp2.zabbix.com:net.tcp.service[smtp].last(0)}=0

    当smtp1.zabbix.com和smtp2.zabbix.com两台主机上的SMTP服务器都离线,表达式将会返回true.

    示例六---触发器名称:Zabbix agent needs to be upgraded,使用函数str():

    {zabbix.zabbix.com:agent.version.str("beta8")}=1

    如果当前zabbix agent版本包含beta8(假设当前版本为1.0beta8),这个表达式会返回true.

    示例七---触发器名称:Server is unreachable

    {zabbix.zabbix.com:icmpping.count(30m,0)}>5

    如上表达式表示最近30分钟zabbix.zabbix.com这个主机超过5次不可到达。

    示例八---触发器名称:No heartbeats within last 3 minutes,使用函数 nodata():

    {zabbix.zabbix.com:tick.nodata(3m)}=1

    tick 为Zabbix trapper类型,首先我们要定义一个类型为Zabbix trapper,key为tick的item。我们使用zabbix_sender定期发送数据给tick,如果在3分钟内还未收到 zabbix_sender发送来的数据,那么表达式返回一个true,与此同时触发器的值变为“PROBLEM”。

    示例九---触发器名称:CPU activity at night time,使用函数 time():

    {zabbix:system.cpu.load[all,avg1].min(5m)}>2&{zabbix:system.cpu.load[all,avg1].time(0)}>000000&{zabbix:system.cpu.load[all,avg1].time(0)}<060000

    只有在凌晨0点到6点整,最近5分钟内cpu负载大于2,表达式返回true,触发器的状态变更为“problem”

    示例十---触发器名称:Check if client local time is in sync with Zabbix server time,使用函数 fuzzytime():

    {MySQL_DB:system.localtime.fuzzytime(10)}=0

    主机MySQL_DB当前服务器时间如果与zabbix server之间的时间相差10秒以上,表达式返回true,触发器状态改变为“problem”

    示例十一---触发器名称:Comparing average load today with average load of the same time yesterday (使用 time_shift 时间偏移量参数).

    {server:system.cpu.load.avg(1h)}/{server:system.cpu.load.avg(1h,1d)}>2

    This expression will fire if the average load of the last hour tops the average load of the same hour yesterday more than two times.

    Hysteresis(迟滞,滞后)

    简单的说触发器状态转变为problem需要一个条件,从problem转变回来还需要一个条件才行。一般触发器只需要不满足触发器为problem条件即可恢复。明白了么?不明白就看例子吧。
    有时候触发器需要使用不同的条件来表示不同的状态,举个官网很有趣的例子:机房温度正常稳定为15-20°,当温度超过20°,触发器值为problem,直到温度低于15°才会接触警报,异常会解除。别整这些没用的,我们看实例.

    为了达到这个效果,我们需要使用如下触发器表达式:

    示例1---触发器名称:Temperature in server room is too high

    ({TRIGGER.VALUE}=0&{server:temp.last(0)}>20)|
    ({TRIGGER.VALUE}=1&{server:temp.last(0)}<15)

    如上有两个小括号,前面一个表示触发异常的条件,后面一个表达式表示解除异常的条件。

    注意:宏变量 {TRIGGER.VALUE}将会返回当前触发器的值

    示例2---触发器名称:Free disk space is too low

    Problem: 最近5分钟剩余磁盘空间小于10GB。(异常)

    Recovery: 最近10分钟磁盘空间大于40GB。(恢复)

    简单说便是一旦剩余空间小于10G就触发异常,然后接下来剩余空间必须大于40G才能解除这个异常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的,有意思不!

    ({TRIGGER.VALUE}=0&{server:vfs.fs.size[/,free].max(5m)}<10G) |
    ({TRIGGER.VALUE}=1&{server:vfs.fs.size[/,free].min(10m)}<40G)

    结尾

    这篇文章很有必要细细读,很重要。


              zabbix触发器依赖关系详解


     

    概述

    zabbix触发器可以设置依赖性,例如我配置了两个触发器,一个触发器定义www.ttlsa.com这个HOST是否在运行中,另一个是www.ttlsa.com的网络是否通畅。假如网络出现故障,但是ttlsa服务器并未出现故障,我们依旧会收到这两个触发器给到的故障通知。
    现在的问题很明显,HOST是正常的,肯定不希望收到他的故障信息,因为它正常工作。所以在配置HOST触发器时,我们需要增加依赖关系,依赖网络是否畅通这个触发器。一旦网络出现故障,将不会出发HOST故障的通知。单个触发器可以依赖于多个触发器。

    触发器依赖要点

    • 一台HOST的触发器可以依赖其他HOST的触发器,但是注意不要有死循环依赖。比如A依赖B,B依赖C,C又依赖A。一个圆圈,没完没了。如下是A依赖B,B又依赖A,根本依赖不了,有如下报错。
      Linux

      zabbix触发器依赖(1)

    • 一个模板的触发器可以依赖另外一个模板的触发器,例如模板A触发器依赖模板B触发器。一个HOST要链接A模板,那么它同时要链接A模板(因为模 板A中的触发器依赖了模板B中的触发器),但是HOST可以单独链接模板B(B是被依赖)。在一个host单独链接template A,结果出现如下错误,所以别忘记了一起把template B也链接到HOST中。
      Linux

      zabbix触发器依赖(2)

    • 模板中的触发器可以依赖HOST中的触发器。如果某个HOST链接这类模板,那么HOST创建的相应的触发器也同样会依赖那个HOST的触发器。 举个官方的例子,某个模板中的一些触发器依赖了route/主机的触发器,凡事链接(理解为套用)了这个模板的机器都会依赖这些router/主机。说了 那么多,其实就是继承了。
    • HOST中的触发器不能依赖模板中的触发器。

    配置

    编辑触发器,选择选项卡“dependencies”,点击Add,选择你需要依赖的触发器,如下图:

    Linux

    zabbix触发器依赖(3)

    然后点击保存,可以看到触发器多了一个depend on

    Linux

    zabbix触发器依赖(4)

    多个依赖实例

    借用官方文档的示例,Host前面有个Router2,Router2前面有Router1,如下:

    Zabbix - Router1 - Router2 - Host

    如果Router1挂了,很明显Router2和Host连不上,我们不希望收到关于连不上Router2和HOST的通知,因此,我们定义了如下依赖关系:

    'Host is down' trigger depends on 'Router2 is down'
    trigger'Router2 is down' trigger depends on 'Router1 is down' trigger

    在触发器将Host的状态改变为'Host is down'之前,它会检查host相关的依赖,这时候如果发现它依赖的触发器只要出现一个problem状态,那么当前触发器状态不会变化,这样一来action不会执行,报警通知sms/email自然也不会发送了。

    zabbix会递归执行检测,如果router1或者router2有一个出现连不上,那么Host的触发器不会有任何的改变。


              zabbix创建触发器trigger

    1. 创建触发器

    了解了什么触发器,接下来看下zabbix触发器怎么创建和配置,方法很简单,请大家往下读,有什么问题请留言。

    创建触发器步骤:

    • 点击Configuration(配置) → Hosts(主机)
    • 点击hosts(主机)相关行的trigger
    • 点击右上角的创建触发器(create trigger),你也可以修改列表中的触发器

    在表单中输入相应的信息

    2. 配置触发器

    如下为触发器

    Linux

    zabbix触发器配置

    参数介绍

    参数描述
    Name 触发器名称.
    名称可以包含宏变量: {HOST.HOST}, {HOST.NAME}, {HOST.CONN}, {HOST.DNS}, {HOST.IP}, {ITEM.VALUE}, {ITEM.LASTVALUE} and {$MACRO}.
    $1, $2…$9 可以被用来关联表达式的常量
    示例:
    name:Processor load above $1 on {HOST.NAME}”
    表达式:system.cpu.load[percpu,avg1].last(0)}>5
    会显示为:Processor load above 5 on ttlsa云服务器
    Expression 计算触发器状态的逻辑表达式,这边设置为上一次值等于0
    Multiple PROBLEM events generation 通过设置该选项,你可以在触发器产生problem的时候触发一个事件
    Description 触发器的描述,一般name写的不清楚,这边可以具体描述这个触发器的作用,例如nginx当前离线,请处理等等。Zabbix 2.2版本开始,支持触发器名称。
    URL 在Monitoring → Triggers中,可以看到URL并且可以点击,一般情况下他需要配合触发器ID来使用,在url中包含触发器ID(宏变量 {TRIGGER.ID}),这样可以直接点击到具体触发器中。
    Severity 设置严重性级别,上图我设置为“灾难”,你可以相应的设置警告、严重等状态的触发器
    Enabled 当前触发器是否启用

    3. 触发器依赖

    上图大家可以看到有个Dependencies,他是做什么的? 翻译为依赖,具体的用法我们后面章节来讲


        zabbix触发器严重性定义Trigger severity

    severity通常用来定义当前item的一个状态的严重性。我们可以根据不同的严重性来定义不同的事件,例如报警,zabbix自带如下严重性定义。

    Trigger severity表格

    SEVERITYDEFINITION颜色
    Not classified 未知. 灰色
    Information 一般信息. 浅绿
    Warning 警告 黄色
    Average 一般问题. 橙色
    High 严重问题. 红色
    Disaster 灾难,会带来损失的那种. 深红

    severities 用途

    • 可视化显示,不同级别显示不同颜色,例如一般严重性为绿色
    • 声音报警,不同的级别不同声音.
    • 使用用户自定义媒体报警,例如严重问题发短信,其他问题发送邮件。
    • 根据严重性来定义是否报警

    可以自定义触发器严重性以及颜色,请参考:customise trigger severity names and colours.


     

            zabbix自定义触发器严重性    

    触发器严重性介绍

    触发器严重性命名以及颜色定义都可以在zabbix web后台定义,点击Administration(管理) → General (常规)→ Trigger severities(触发器严重性)。这边定义好的颜色在每个不同主题/风格里面都是一样的。
    所有系统默认的触发器名字在各国的语言包中都有翻译,但是你自定义的其他语言包不会给你翻译,因为在语言包里面没有这一个项目。那么怎么保证各国语言包里面都能相应的翻译自定义的严重性呢?
    我们知道zabbix默认定义了6个触发器严重性,分别为:Not classified、Information、Warning、Average、High、Disaster,有些人觉得High不好理解或者觉得描述不满意,想改成Important,请看如下操作:

    设置触发器名称

    点击Administration(管理) → General (常规)→ Trigger severities(触发器严重性),将High改为important,当然这里你也可以自定义你的颜色,我们这边就不再敖述了,修改完之后点击保存。

    Linux

    zabbix修改严重性名称

    添加内容到frontend.po

    # /data/site/monitor.ttlsa.com/locale/en_US/LC_MESSAGES/frontend.po
    msgid "Important"
    msgstr "very Import"

    [warning]备注:/data/site/monitor.ttlsa.com/是您zabbix站点根目录[/warning]

    创建.mo文件

    需要执行locale目录下的make_mo.sh文件,如果出现./make_mo.sh: line 4: msgfmt: command not found,那么请你先安装msgfmt

    # yum install gettext

    然后执行make_mo.sh

    # ./make_mo.sh

    效果

    随意选择一个Host的触发器列表,看左边信息,请看如下图<

    Linux

    severities修改并翻译

    在 自定义触发器名称之前应该显示High的,这边被我们修改成了Very Import。zabbix是一个多语言监控系统,如果你想切换到中文环 境,那么你需要修改zh_CN下的frontend.po,然后make_mo.sh创建frontend.mo。否则将只会显示Important,如 下:

    Linux

    severities未翻译

    这边直接显示触发器的MSGID,因为你没翻译。

    最后

    6个触发器级别,名称随你修改,但是大多数情况下我们都不需要修改,默认的挺好的,不是吗?非要自定义,我不拦你。


          zabbix获取上一个值prev zabbix触发器函数

    zabbix触发器方法prev用于获取item前一个返回值,与方法last(#2)是同样的意思

    zabbix触发器方法prev - web界面

    zabbix

    zabbix获取前一个返回值

    如下是web界面提供的功能:

    Previous value is > N
    Previous value is < N
    Previous value is = N
    Previous value is NOT N

    zabbix触发器方法prev - 实例

    CPU前一个负载值大于0.7

    {dd-pre-01:system.cpu.load[percpu,avg1].prev()}>0.7

    或者使用last获得同样的效果

    {dd-pre-01:system.cpu.load[percpu,avg1].last(#2)}>0.

    zabbix触发器方法prev - 支持类型

    它支持类型包括:float, int, str, text, log


         zabbix获取当前UNIX时间戳now zabbix触发器函数

    获取当前UNIX时间戳,UNIX时间戳是什么?当前距离1970年1月1日00:00:00一共多少秒。使用zabbix触发器函数:now(),举一个简单的例子。

    2020年1月1日0时0分0秒(UNIX时间戳:1577808000)到2020年2月1日0时0分0秒(UNIX时间戳:1580486400)之间,cpu1分钟负载大于1触发告警。例子意义不大,希望大家举一反三。

    {ttlsa-server:system.cpu.load[all,avg1].last()}>1 and
    {ttlsa-server:system.cpu.load[all,avg1].now()}>1577808000 and
    {ttlsa-server:system.cpu.load[all,avg1].now()}<1580486400

          zabbix取平均值avg zabbix触发器函数

    zabbix触发器方法avg与上一节的abschange多了时间概念。上一节仅仅是取前后两个值对比,avg有如下取值方式:

    1. 最后N个值
    2. 最近XX时间,例如最近1h
    3. 以上1和2还要结合time_thift时间偏移参数,例如1h
    function

    zabbix-function-avg

    zabbix触发器方法avg - web界面

    如下是web界面提供的功能:

    Average value of a period is < N
    Average value of a period is > N
    Average value of a period is = N
    Average value of a period is NOT N

    zabbix触发器方法avg - 实例

    CPU负载最近一小时平均值等于1

    {dd-pre-01:system.cpu.load[percpu,avg1].avg(1h)}=1

    CPU负载昨天当前时间的上一小时平均值等于1,1d表示时间往前推移1天,你可以写1h,1m,10d,现在明白了time_thrift的用法了吧?

    {dd-pre-01:system.cpu.load[percpu,avg1].avg(1h,1d)}=1

    CPU负载最近10次的平均值等于1

    {dd-pre-01:system.cpu.load[percpu,avg1].avg(#10)}=1

    昨天同一时间CPU负载最近10次的平均值等于1

    {dd-pre-01:system.cpu.load[percpu,avg1].avg(#10,1d)}=1

    zabbix触发器方法avg - 支持类型

    它支持类型包括:float, int,能平均的除了数字还有谁?


          获取最大值max zabbix触发器函数

    zabbix触发器函数max - 作用

    有如下作用:

    1. 获取一个时间周期内最大值
    2. 获取几个返回值中的最大值
    3. 以上方法,时间往前推移1分钟,1小时,1天等等

    zabbix触发器函数max - 对应web

    windows zabbix agentd安装

    文字如下

    Maximum value for period T is > N
    Maximum value for period T is < N
    Maximum value for period T is = N
    Maximum value for period T is NOT N

    zabbix触发器函数max - 例子

    语法:max (sec|#num,<time_shift>)

    一个小时内cpu负载最大值超过10

    {dd-pre-01:system.cpu.load[percpu,avg1].max(1h)}>10

    cpu负载最近10个返回值,最大值超过10

    {dd-pre-01:system.cpu.load[percpu,avg1].max(#10)}>10

              最小值min zabbix触发器函数

    功能和上一节将的max整好相反,我们将结合max、min来一个更有意思的实例。

    zabbix触发器函数min - 作用

    ,有如下作用:

    1. 获取一个时间周期内最小值
    2. 获取几个返回值中的最小值
    3. 以上方法,时间往前推移1分钟,1小时,1天等等

    zabbix触发器函数min - 对应web

    min

    文字如下

    Minimum value for period T is > N
    Minimum valuefor period T is < N
    Minimum value for period T is = N
    Minimum value for period T is NOT N

    zabbix触发器函数min - 例子

    语法:min(sec|#num,<time_shift>)

    一个小时内cpu负载最小值小于0.2

    {dd-pre-01:system.cpu.load[percpu,avg1].min(1h)}<0.2

    cpu负载最近10个返回值,最小值小于0.2

    {dd-pre-01:system.cpu.load[percpu,avg1].min(#10)}<0.2

    zabbix触发器函数min/max - 实例

    触发器名称:Free disk space is too low

    Problem: 最近5分钟剩余磁盘空间小于10GB。(异常)

    Recovery: 最近10分钟磁盘空间大于40GB。(恢复)

    讲解:简单说便是一旦剩余空间小于10G就触发异常,然后接下来剩余空间必须大于40G才能解除这个异常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的.

    ({TRIGGER.VALUE}=0 and {server:vfs.fs.size[/,free].max(5m)}<10G)  or 
    ({TRIGGER.VALUE}=1 and {server:vfs.fs.size[/,free].min(10m)}<40G)

            abschange前后差值 zabbix触发器函数

    监控实战中,每个同学对触发器告警条件要求各不相同,so,zabbix提供了几十个方法提供使用。部分人对以下功能也不甚了解。接下来,我会一一讲解下图function与zabbix提供function的对应关系,以及他们的功能。

    abschange

    zabbix-function

    zabbix取前后差值(绝对值)- abschange

    如下是web界面提供的功能:

    Absolute difference between last and previous value is = N

    Absolute difference between last and previous value is > N

    Absolute difference between last and previous value is < N

    Absolute difference between last and previous value is NOT N

    通过实例来一一了解它,例子也许很滑稽很不合理,但是大家可以举一反三,它只是一个例子

    如果(每核)CPU 1分钟负载浮动1(突然增加1,1分钟后又降低1)

    {ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}=1

    如果(每核)CPU 1分钟负载浮动大于1

    {ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}>1

    如果(每核)CPU 1分钟负载浮动小于1

    {ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<1

    如果(每核)CPU 1分钟负载浮动不等于1

    {ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<>1

    abschange支持类型

    它支持类型包括:float, int, str, text, log,它不仅仅支持数值,还支持字符串。如果取值为字符串,那么字符串相同值为0,不同则为1

    如下为主机名发生变更的触发器表达式

    {ttlsa-web-01:system.hostname.abschange()}=1
  • 相关阅读:
    Linux 网络编程六(socket通信UDP版)
    Redis 集群方案介绍
    华为交换机STP 根ID优先级设置
    Pacemaker+Corosync搭建PostgreSQL集群
    SpookyOTP
    世界级的开源项目:TiDB 如何重新定义下一代关系型数据库
    TiDB
    Fiddler显示响应时间 显示服务器IP
    DNS记录类型名单
    Django models中关于blank与null
  • 原文地址:https://www.cnblogs.com/ultranms/p/9254260.html
Copyright © 2011-2022 走看看