zoukankan      html  css  js  c++  java
  • 中小企业 IT 运维福利:快速构建 on-call 机制

    大多 IT 运营支撑同学都有过深夜业务应用突然故障的经历,监控系统准确告警,但是白天筋疲力尽的运维同学在熟睡中,经常会遗漏告警提醒;往往是接到主管电话(用户投诉了)才处理。有什么办法解决该问题呢?大多人是这么做的:

    建立7x24小时的一线值班团队,搞一个监控室,值班人员随时警备,负责告警响应和协调调度工作。一年至少花费:4人(2班)x15万/年=60万/年,也就土豪公司的可以搞搞,中小型公司肿么办?

    我们部分赞同该思路:

    建立7x24小时的 on-call 机制,随时响应解决,通过团队协作的机制来进行保障。

    但在具体的方法和形式上,需要一个好的工具是可以支撑起7x24小时的 on-call 团队,重点之一是:

    有效的告警通知,而且是通知必达(如主管电话)。

    如何通知必达?

    OneAlert 之前已经支持了微信、短信、邮件、移动APP、页面级提醒,新版4.1.2.0新增电话通知,再也不怕深夜故障啦。

    这次优化包括2部分:

    • 新增电话提醒,智能语音播报告警内容,即使是深夜,你也能够及时唤醒,第一时间处理故障。避免手机网络不稳定引起的微信、邮件、移动 APP 不及时现象,基本上电话是不可抗拒的,除非关机。当然如果关机的话(7x24不允许关机),OneAlert 的升级分派策略会同时通知其他同学。

    • 阶梯式延迟提醒通知。告警事件过来后,多个渠道可以延迟的方式通知。如果在这个过程中有人响应该告警了,那么就没有必要进行后续的提醒通知了。例如同时通知给2名值班同学 A 和 B,其中同学 A 收到微信提醒后,确认(响应)该告警了,那么同学 B 就不会继续收电话通知了。

    延迟提醒

    7x24 on-call

    回到原先的话题,如何构建7x24 on-call 机制去及时响应故障。

    • 将监控系统的告警接入到 OneAlert ,可参考云告警接入
    • 将 on-call 团队成员加入告警分派中,可参考告警分派
    • 每个人设置通知方式,特别是电话通知作为最后的杀手锏。

    中小企业运维支撑同学就可构建一个 on-call 团队,告警事件的处理会逐渐进入正轨,并有序处理。

    结束语

    这次新版本发布, OneAlert 已经实现两个中国领先:通知渠道领先和接入监控平台领先。

    中小企业 IT 运维福利:快速构建 on-call 机制

    OneAlert 作为中国领先的云告警平台,后续版本将在以下方面发展:

    • 更多的国内外主流监控工具,以及主流 IT 协作工具。
    • 更多的通知运营商和集成商,提升渠道可靠性。

    免费注册

    OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网

  • 相关阅读:
    linux基础命令之一
    Chrome 控制台使用大全
    移动端效果 — 页面引入在线视频
    移动端——简单计分表单
    JS操作cookie
    移动端页面字体——rem的使用
    Highcharts 使用总结
    CSS水平居中
    python学习 day2
    python学习 day1
  • 原文地址:https://www.cnblogs.com/oneapm/p/4793105.html
Copyright © 2011-2022 走看看