zoukankan      html  css  js  c++  java
  • 运维大杀器来了!云上服务器或实现无人值守

            云原生时代下,企业运维面临架构复杂化、业务需求多样化和运维数据海量等挑战,如何能够实现精准告警、异常智能诊断、根因定位、异常预测和异常自动修复,已成为企业数字化转型的急迫需求。
    9月26日,阿里巴巴高级技术专家滕圣波在《GOPS全球运维大会》上发表了题为《云上服务器无人值守与自助服务实战》的主题演讲,分享了阿里云弹性计算团队如何利用人工智能技术赋能运维自动化,实现云上服务器无人值守,帮助用户降低云服务器实例管理的复杂性,来保障实例服务的稳定和高效运行。本文根据滕圣波的演讲整理。 

    图:阿里巴巴高级技术专家滕圣波


    01
    为什么需要无人值守
           运维是一种服务,既包含基础设施软件服务、也包含人力服务,服务的对象是企业中使用基础设施的业务团队,而云计算IaaS是一种运维服务,服务的对象已发展为使用云服务的开发人员和运维团队。随着云计算的广泛落地,大部分企业开始上云,当前就有100万多家用户的业务运行在阿里云平台上,阿里云平台服务的用户也越来越多。

    随着平台用户规模的扩大,我们发现平台用户在ECS实例运维时普遍面临三个痛点:

    • 背景沟通成本高,为什么我的实例出问题了?
    • 人工处理需要较长的时间,为什么这个问题这么久还没有解决?
    • 客户操作不透明,问题看起来修复了,可是刚刚你做了什么?


           为了问题的高效解决,我们需要重人力投入在客服人员方面。为了避免用户规模扩大带来的客户侧运维成本的线性上升,我们开始利用人工智能技术赋能用户运维管理。在无人零售、无人驾驶成为趋势的时候,我们认为未来云上服务器也将实现无人值守。
    事实上,阿里云弹性计算产品推出十年,沉淀了众多ECS实例运维管理经验和异常“行为”规律。所以依托机器学习的数据驱动,我们通过异常“行为”数据的分析,构建了一套云上服务器的无人值守架构,并推出了一系列自助服务,实现了ECS实例的自诊断、自修复、自优化、自运维,帮助用户降低ECS实例管理的复杂性,从而来保障实例服务的稳定和高效运行。
    02
    无人值守的自服务实战
    计算IaaS的运维工作可以拆分为服务侧运维和客户侧运维,服务侧运维是云平台的运维工作,通常对用户不可见的。主要涉及基础设施、基础产品和上层管控三个层面,包括机房、物理设备的运维工作、资源虚拟化、资源调度、热迁移等工作。随着用户规模的扩大,这些运维工作会越来越复杂。而用户侧运维工作,是对用户自己可见的。主要是用户对ECS实例的修改操作和自动化工作,包括扩容、重启、监控、客服服务、工单反应、资源编排和运维编排等。



    我们构建的云服务器的无人值守架构为阿里云平台用户提供了一系列的自助服务。广义上看,阿里云的自助服务囊括了ECS实例本身、实例生命周期管理、系统管理和自动化、市场和生态四个维度,如下图。

    图:广义上的自助服务

    狭义上来说,阿里云自助服务为用户实现了ECS实例的诊断、修复和推荐的功能。当天,阿里云自主服务已通过实例诊断工具、实例优化推荐、自动修复工具、最佳模板推荐和ECS事件自动化等一系列自助服务工具,覆盖了80% ECS常见问题,将问题解决的平均周期从几小时缩短至分钟级,整个过程无需客服人工参与,无隐私泄漏风险,做到了云上服务器的无人值守。未来随着AI+数据的不断驱动,ECS实例的诊断和修复将会越来越精准。
    ECS实例的智能诊断根据平台的数据统计,用户在使用ECS实例时主要面临四大类问题

    • 实例无法远程访问

    • 实例无法启动/停止

    • 实例性能异常

    • 磁盘扩容未生效


    所以,在智能诊断的能力上,我们覆盖了ECS系统服务、磁盘健康服务、网络健康服务和Guest OS系统配置等维度,用户一键即可完成实例的智能健康诊断。
     ECS实例的自动化修复在智能诊断完成后,我们还会为用户提供ECS实例自动化修复方案,在前者定位问题所在之后,自动化修复能够在1-3分钟解决问题,主要完成ECS系统服务修复、网络问题修复和磁盘修复。
    仅仅实现自动化修复是不够的,我们认为自动化修复还应该是透明合规的。我们通过运维编排服务OOS提供自动化引擎,通过云助手命令提供GuestOS内的执行能力,运维编排服务OOS+云助手命令共同帮助用户完成自动化修复;同时,我们开源了运维编排服务OOS+云助手命令的代码,做到一切修复逻辑对用户可见;一切修复操作还可以通过ECS实例的镜像、快照和数据备份实现回滚;通过阿里云RAM角色控制实现一切权限可控,通过阿里云操作审计ActionTrail实现一切记录可审计,做到了真正的透明合规。
    03
    无人值守背后的AI数据力量
    让我们实现智能诊断和自动化修复的,是冰山下强大的技术支撑——AI+数据。依托底层的数据中台,我们完成了,包括物理机数据、虚拟化数据、网络数据、控制面数据和GuestOS内数据等数据的采集、清洗、分析和模型的构建;加上AI算法的不断调优,我们搭建了用户画像、决策树、预测和推荐模型等,从而保证异常诊断和自动修复越加精准和高效。

    当前,在整体的ECS自助服务架构中,主要依靠管控监控中心实时监测日志服务、中间件监控、API请求监控以及控制台监控和自助诊断的数据,通过机器学习引擎实现问题预警和处理,进而驱动运维编排服务OOS实现自动化修复问题。

    通过这套AI驱动的自服务架构,当前ECS实时内存异常感知准确率在70%以上,实施预测链路延时则控制在100s以内;另外融合专家经验、案例库和知识库,我们构建了一个强大的诊断决策树,为加快问题的定位和修复提供了强有力的依据。
     近两年,阿里云弹性计算团队持续不断地投入构建异常行为数据集,未来计划将其演进成为阿里巴巴集团在异常预测上的“ImageNet 数据集”并进行开源,希望能为异常预测在业内的发展贡献更大的价值。



    关注百晓生,笑谈云计算

  • 相关阅读:
    机器学习(深度学习)
    机器学习(六)
    机器学习一-三
    Leetcode 90. 子集 II dfs
    Leetcode 83. 删除排序链表中的重复元素 链表操作
    《算法竞赛进阶指南》 第二章 Acwing 139. 回文子串的最大长度
    LeetCode 80. 删除有序数组中的重复项 II 双指针
    LeetCode 86 分割链表
    《算法竞赛进阶指南》 第二章 Acwing 138. 兔子与兔子 哈希
    《算法竞赛进阶指南》 第二章 Acwing 137. 雪花雪花雪花 哈希
  • 原文地址:https://www.cnblogs.com/tanxingjisuan/p/13751536.html
Copyright © 2011-2022 走看看