zoukankan      html  css  js  c++  java
  • 中小企业 IT 运维福利:快速构建 on-call 机制

    大多 IT 运营支撑同学都有过深夜业务应用突然故障的经历,监控系统准确告警,但是白天筋疲力尽的运维同学在熟睡中,经常会遗漏告警提醒;往往是接到主管电话(用户投诉了)才处理。有什么办法解决该问题呢?大多人是这么做的:

    建立7x24小时的一线值班团队,搞一个监控室,值班人员随时警备,负责告警响应和协调调度工作。一年至少花费:4人(2班)x15万/年=60万/年,也就土豪公司的可以搞搞,中小型公司肿么办?

    我们部分赞同该思路:

    建立7x24小时的 on-call 机制,随时响应解决,通过团队协作的机制来进行保障。

    但在具体的方法和形式上,需要一个好的工具是可以支撑起7x24小时的 on-call 团队,重点之一是:

    有效的告警通知,而且是通知必达(如主管电话)。

    如何通知必达?

    OneAlert 之前已经支持了微信、短信、邮件、移动APP、页面级提醒,新版4.1.2.0新增电话通知,再也不怕深夜故障啦。

    这次优化包括2部分:

    • 新增电话提醒,智能语音播报告警内容,即使是深夜,你也能够及时唤醒,第一时间处理故障。避免手机网络不稳定引起的微信、邮件、移动 APP 不及时现象,基本上电话是不可抗拒的,除非关机。当然如果关机的话(7x24不允许关机),OneAlert 的升级分派策略会同时通知其他同学。

    • 阶梯式延迟提醒通知。告警事件过来后,多个渠道可以延迟的方式通知。如果在这个过程中有人响应该告警了,那么就没有必要进行后续的提醒通知了。例如同时通知给2名值班同学 A 和 B,其中同学 A 收到微信提醒后,确认(响应)该告警了,那么同学 B 就不会继续收电话通知了。

    延迟提醒

    7x24 on-call

    回到原先的话题,如何构建7x24 on-call 机制去及时响应故障。

    • 将监控系统的告警接入到 OneAlert ,可参考云告警接入
    • 将 on-call 团队成员加入告警分派中,可参考告警分派
    • 每个人设置通知方式,特别是电话通知作为最后的杀手锏。

    中小企业运维支撑同学就可构建一个 on-call 团队,告警事件的处理会逐渐进入正轨,并有序处理。

    结束语

    这次新版本发布, OneAlert 已经实现两个中国领先:通知渠道领先和接入监控平台领先。

    中小企业 IT 运维福利:快速构建 on-call 机制

    OneAlert 作为中国领先的云告警平台,后续版本将在以下方面发展:

    • 更多的国内外主流监控工具,以及主流 IT 协作工具。
    • 更多的通知运营商和集成商,提升渠道可靠性。

    免费注册

    OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网

  • 相关阅读:
    June. 26th 2018, Week 26th. Tuesday
    June. 25th 2018, Week 26th. Monday
    June. 24th 2018, Week 26th. Sunday
    June. 23rd 2018, Week 25th. Saturday
    June. 22 2018, Week 25th. Friday
    June. 21 2018, Week 25th. Thursday
    June. 20 2018, Week 25th. Wednesday
    【2018.10.11 C与C++基础】C Preprocessor的功能及缺陷(草稿)
    June.19 2018, Week 25th Tuesday
    June 18. 2018, Week 25th. Monday
  • 原文地址:https://www.cnblogs.com/oneapm/p/4793105.html
Copyright © 2011-2022 走看看