zoukankan      html  css  js  c++  java
  • 2016运维团队所需解决方案的5个关键因素

    现在 SaaS 的发展势头已经无法抵挡,只要持有企业信用卡,任何人都可以顺利部署 SaaS 工具,并借助 API,在短短几分钟内连接其他重要应用。并且开发者掌握了许多自动化快捷处理方式——比如说 Application Insight 应用部署和 Mobile Insight 移动应用测试——这极大地节省了推出新应用程序的时间。然而,很多管理应用程序和基础设施的旧方法以及无法跟上 SaaS 发展的步伐。

    因此,企业转而采用各种专业监管工具——比如 NagiosZabbixSolarwindsAWS CloudWatch —— 旨在获取对堆栈不同层次的深刻认识。遗憾的是,这些工具难以实现交互的工作方式。各种监管工具的告警便层出不穷,数量之大,几乎让你分不清信号和噪音。

    如何在噪音中准确寻获信号?

    对于运维团队来说,只是单纯的获取告警其实是远远不够的,因为我们得到了太多的告警。事实上,源源不断的告警只会培养运维团队无视告警的能力(无法否认这是事实!)。当噪音很大时,你容易将不常见的信号也当成噪音。这可不是好事。

    因此,运维团队需要智能的整体解决方案和可操作数据的解决方案,这样不仅能自动处理超出人工可处理范围的任务,还能在收到可操作告警后知道该如何处理。

    2016运维团队所需解决方案的5个关键因素

    为实现以上功能,结合告警平台的已上线的功能,以国外的 BigPanda 和国内的 OneAlert 为例,整合了运维团队需要的解决方案应该包括的 5 个关键因素

    1. 时间。运维团队需要掌握实时动态。比起容易过时的快照,运维团队需要轻松地掌握实时动态。但是,快照的优势在于能够让你比较今天和昨天甚至是前一周的数据,OneAlert 最多可提供 1 年的存储数据服务。

    2. 告警等级。如果你识别不了哪一个告警是最重要的,你就不知道轻重缓急。一般分为严重、警告、提醒三个等级。

    3. 告警类型。针对告警目标和内容的关联度及事后影响,了解告警发出的真正原因,从而确定告警类型。

    4. 自动化和集成。当我们无法解决告警的时候(可能是不擅长处理该类问题,还可能是没有时间处理!),我们可以在集成的工单系统中提交工单,对一些简单的可自动化处理的问题,可以直接自动化处理,如重启服务器等。OneAlert 非常重视相关模块的开发。

    5. 剖析大蓝图。今天的 IT 基础设施并不存在任何孤岛。一个应用的告警是其他应用出现问题的信号。运维团队需要了解每一个 IT 难题怎样串联在一起,又是如何相互影响的。剖析大蓝图必不可少。

    综合以上 5 个因素,可以总结出提高运维团队维稳效率的 2 个关键因素:时间洞察力和补救时间。

    二者之中,时间洞察力更为重要,这个过程耗时越长,企业宕机时间的成本就越高,生产力损失就越大。你有足够的信心去洞察吗?你知道如何才能解决问题吗?原有的监控工具忽略了补救时间的重要性。但是,请记住,如果我们无法衡量它,我们就无法改善它。因此,不断改进是运维团队紧跟时代步伐的唯一方式。

    OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网 。

    本文转自 OneAPM 官方博客

  • 相关阅读:
    Python入门-函数进阶
    Python入门-初始函数
    Leetcode300. Longest Increasing Subsequence最长上升子序列
    Leetcode139. Word Break单词拆分
    Leetcode279. Perfect Squares完全平方数
    Leetcode319. Bulb Switcher灯泡开关
    Leetcode322. Coin Change零钱兑换
    二叉树三种遍历两种方法(递归和迭代)
    Leetcode145. Binary Tree Postorder Traversal二叉树的后序遍历
    Leetcode515. Find Largest Value in Each Tree Row在每个树行中找最大值
  • 原文地址:https://www.cnblogs.com/oneapm/p/5166103.html
Copyright © 2011-2022 走看看