畅谈一下告警

zoukankan html css js c++ java

畅谈一下告警

为什么要告警

一个业务系统维护了很长时间了，指不定什么时候会出现问题。不过有些系统也是依赖微信、支付宝平台的，大平台都有自身的监控和告警能力帮忙分析和定位商户系统问题，但并不是所有场景都能涵盖到。所以个人负责的业务模块需要制定合理的告警机制，系统发生故障要第一时间知道，而不是被通知。

告警指标

常见的指标有请求量、失败量、平均耗时等，其他指标可以根据业务自身的特点来提取上报。

告警阈值

告警的目的是出问题了，能够马上主动发现问题，简单的问题甚至可以在被投诉和其他人发现前就能修复了。

如果一个系统上报的指标多了，经常会发生没有设置告警阈值的情况。
尤其是对于后来新增的监控指标，尤其要注意是否设置监控阈值。

可以针对请求量、失败量，失败率，平均耗时，耗时中位数设置合理的阈值，触发阈值后发送告警通知。

告警处理

我们要明确告警的目的，告警是为了及时发现问题，然后快速处理并恢复业务系统。告警信息要明确，不要误告警。对于简单且能快速处理的问题，可以允许间断的发送告警；而对于相对复杂并且很长时间才能解决的问题，持续的告警就没有意义，这时需要屏蔽告警，问题修复之后再重新恢复告警机制。因此告警模块的灵活性配置是很重要的，根据业务场景可以配置不同的策略，另外也要支持屏蔽和恢复能力。

告警收敛

复杂的业务系统往往都是多实例部署的，如果每个实例都发生问题然后开始发送告警信息，那么技术人员会收到很多条无意义的信息，不利于告警信息分析。这时就要考虑对告警信息进行收集分析了，保证每个业务场景的告警信息同一时间内只是发送一次。及时多实例告警信息做了收集分析，故障没有及时处理，告警信息会持续发送，这是就要固定周期内发送告警信息，甚至可以通过配置进行屏蔽掉。告警一定要在系统故障的时候及时发出来，避免无意义的发送，否则技术人员会产生抵触心里，甚至手机端直接屏蔽。

合理阈值

告警模块要支持不同的业务场景设置不同的告警阈值，如果是一个固定的阈值可能会引入一系列的误告警。灵活的配置，配置中心的引入是少不了了。设置阈值时，要考虑同一个业务场景不同的时间段是不是需要设置不同的阈值，不同的业务场景需要设置不同的阈值。比如某个特殊业务场景，晚上的请求量比白天的请求量多；比如有的业务场景接口平均响应时间比其他的都长；比如某些业务场景在某个时间段不进行告警分析。

告警设计

成功量和失败量的统计可以通过内存变量（AtomicLong）进行统计，或者使用RxJava提供的window操作符会在时间间隔内缓存统计结果，类似于buffer缓存一个list集合，区别在于window将这个结果集合封装成了observable。

使用RxJava可以很方便统计一个窗口内服务的成功量、失败量、延迟分布情况。

像常用的中间件（redis、kafka、rocketmq、es）相关操作都可以通过切面利用RxJava统计健康和延迟情况，然后汇总到告警模块进行分析并触发预警。

总结

希望本文章的告警设计思路可以给读者带来启发。一个优秀的告警系统，可以减少人力监控，也是自动化运维的一种手段。对于技术人员来说，自己写的业务代码出现问题一定要自己第一时间知道，而不是被人通知。如果现有的告警能力不能满足你的要求，一定要从长远的角度出发，制定告警方案，而不是把大部分精力都放在日志查询上。

查看全文

相关阅读:
正则笔记
 html5的选择器
 原生js操作dom备忘
 avalon使用笔记
 webpack2配置备份
 美女图片小爬虫，嘿嘿
 JS原型和继承
 localstorage sessionstorage cookie 备忘
 gulp配置文件备份
 node代码片段

原文地址：https://www.cnblogs.com/hujunzheng/p/14616775.html

畅谈一下告警

为什么要告警

告警指标

告警阈值

告警处理

告警收敛

合理阈值

告警设计

总结