Prometheus 告警收敛
告警面临最大问题,是警报太多,相当于狼来了的形式。收件人很容易麻木,不再继续理会。关键的告警常常被淹没。在一问题中,alertmanger在一定程度上得到很好解决。
Prometheus成功的把一条告警发给了Altermanager,而Altermanager并不是简简单单的直接发送出去,这样就会导致告警信息过多,重要告警被淹没。所以需要对告警做合理的收敛。
告警收敛手段:
- 分组(group):将类似性质的警报分类为单个通知
- 1、减少报警消息的熟练
- 2、同类告警聚合帮助运维排查问题
- 抑制(Inhibition):当警报发出后,停止重复发送由此警报引发的其他警报
-
配置文件:vim alertmanager.yml # inhibit_rules标记:降低告警收敛,减少报警,发送关键报警 inhibit_rules: # source_match: 匹配当前告警发生后其他告警抑制掉 - source_match: # severity: 指定告警级别 severity: 'critical' # target_match:抑制告警 target_match: # severity: 指定抑制告警级别 severity: 'warning' # equal: 只有包含指定标签才可成立规则 equal: ['alertname', 'dev', 'instance']
- 1、消除荣誉报警
- 静默(Silences):是一种简单的特定时间静音提醒的机制
- 1、解决预期告警
创建静默
- 访问地址:http://www.xiangsikai.com:9093/#/alerts
1、创建静默
2、填入开始结束时间,填写标签名称,保存
3、查看创建静默