prometheus告警触发流程

zoukankan html css js c++ java

prometheus告警触发流程
Prometheus 一条告警的触发流程、等待时间

报警处理流程如下：
1. Prometheus Server监控目标主机上暴露的http接口（这里假设接口A），通过上述Promethes配置的'scrape_interval'定义的时间间隔，定期采集目标主机上监控数据。
2. 当接口A不可用的时候，Server端会持续的尝试从接口中取数据，直到"scrape_timeout"时间后停止尝试。这时候把接口的状态变为“DOWN”。
3. Prometheus同时根据配置的"evaluation_interval"的时间间隔，定期（默认1min）的对Alert Rule进行评估；当到达评估周期的时候，发现接口A为DOWN，即UP=0为真，激活Alert，进入“PENDING”状态，并记录当前active的时间；
4. 当下一个alert rule的评估周期到来的时候，发现UP=0继续为真，然后判断警报Active的时间是否已经超出rule里的‘for’ 持续时间，如果未超出，则进入下一个评估周期；如果时间超出，则alert的状态变为“FIRING”；同时调用Alertmanager接口，发送相关报警数据。
5. AlertManager收到报警数据后，会将警报信息进行分组，然后根据alertmanager配置的“group_wait”时间先进行等待。等wait时间过后再发送报警信息。
6. 属于同一个Alert Group的警报，在等待的过程中可能进入新的alert，如果之前的报警已经成功发出，那么间隔“group_interval”的时间间隔后再重新发送报警信息。比如配置的是邮件报警，那么同属一个group的报警信息会汇总在一个邮件里进行发送。
7. 如果Alert Group里的警报一直没发生变化并且已经成功发送，等待‘repeat_interval’时间间隔之后再重复发送相同的报警邮件；如果之前的警报没有成功发送，则相当于触发第6条条件，则需要等待group_interval时间间隔后重复发送。
同时最后至于警报信息具体发给谁，满足什么样的条件下指定警报接收人，设置不同报警发送频率，这里有alertmanager的route路由规则进行配置。

1、等待时间1

查看配置文件：vim prometheus.yml
global: # 数据采集间隔 scrape_interval: 15s # 评估告警周期 evaluation_interval: 15s # 数据采集超时时间默认10s # scrape_timeout
2、等待时间2

配置文件：vim alertmanager.yml
# route标记：告警如何发送分配 route: # group_by：采用哪个标签作为分组的依据 group_by: ['alertname'] # group_wait：分组等待的时间 group_wait: 10s # group_interval：上下两组发送告警的间隔时间 group_interval: 10s # repeat_interval：重复发送告警时间。默认1h repeat_interval: 1m # receiver 定义谁来通知报警 receiver: 'mail'
查看全文

相关阅读:
不同指针类型的转换
 dt7.0百度熊掌当天主动推送方法
 腾讯视频信息数据爬虫开发【核心爬虫代码】
seo与python大数据结合给文本分词并提取高频词
 Python经典算法-猴子吃桃-思路分析
 猜数游戏-人机对战-经典的randint使用
 python模拟双色球大乐透生成算法
 python打造批量关键词排名查询工具
 python开发全自动网站链接主动提交百度工具
 centos下shell脚本kill掉mysql锁表进程【笔记】

原文地址：https://www.cnblogs.com/qinghe123/p/14775779.html