zoukankan      html  css  js  c++  java
  • IT监控工作如何引入热门的ITIL? 沧海

    IT部门需要有一张业务视图反映IT 环境。出现了什么问题,就可以到里面去找,会清楚地知道这影响什么,会关联什么,以及关联的原因。CMDB(配置管理库)就是这样一种工具。

    ITIL作为现今IT业务管理的热门词,在信息中心的工作中发挥着怎样的作用?8月份,我刊组织企业与BMC公司就“IT监控工作如何引入ITIL?”开展了小型研讨会。本刊记者整理了研讨内容,以飨读者。下文中,提问方为企业代表,解答方为BMC公司。

    问:怎样从运维角度理解ITIL?

    BMC:对于运维来说,ITIL可以说是最佳理论,是一套指导思想。参与运维的工作人员要知道什么是ITIL, ITIL包含什么内容。怎样做好运维?怎样在已有的基础上如何提高水平?这是从运维角度理解ITIL的要旨。这需要考察运维的现状是什么样,下一步该怎样去做,这包括将来的组织架构、人员安排、分工和分配,所使用的设备等等是如何结合的。这些都需要在ITIL理论的指导下进行。

    问:信息中心作为一种提供IT服务的部门,怎样在实际工作中体现ITIL?

    答:ITIL的意义在于为业务人员和信息中心提供一套“共同的语言”。因为人员、工作领域、角色的不同,双方需要有一个有效沟通的平台。而参与业务工作的人员如果对ITIL的理解达成共识,有利于大家就进一步讨论建造服务模型、设置变更控制模型、设置配置管理等。

    这涉及事件管理、问题管理、服务台、配置管理、变更管理等一系列过程。到底要解决什么样的问题?问题的解决需要哪些角色参与?每一个人又是处于哪种角色?所有的业务部门就可能会有一个相应的变化,每一个角色在整个流程中会向哪个方向发展,因此就形成了一个相互沟通的平台,在这个平台上,可以继续讨论怎么达到很好的效果、寻找互相配合的方式。

    ITIL解读

    问:ITIL的主要内容包括什么?怎样具体理解?

    BMC:ITIL主要分为两大部分,一部分是服务支持,一部分是服务交付。每部分当中各有5个流程。总括起来是比较明确的10个流程。ITIL是IT服务管理,即有效地结合流程、人员和技术,把这三者有效结合起来交付一种高质量的服务,这就是IT服务管理想要达成的目标。在实际中会涉及很多问题,这是因为每个部门对此真实操作与应用的理解不同。

    另外,由于具体从事工作的都是人,每个人都有自己的特点,有很多不确定因素。这些人员的不确定性因素,最终影响IT服务的质量,那么需要人们采取一定的办法把这问题解决掉,并保证每次提供的服务质量都差不多。实际上,这就是控制。通过控制保证服务是一个很有效的过程。

    服务支持涉及的内容是运行部门在日常工作中会经常用到的东西。比如事件管理、问题管理、配置管理、变更管理和发布管理,再加上服务台,这些构成了服务支持。

    服务交付中涉及的内容是一种战略性的东西。它包括5个交付流程,比如容量管理、IT服务的财务管理、可用性管理、服务水平管理以及IT的服务连续性管理。这些内容更具战略性意义。比如,如何避免那些偶然发生的事情的影响;比如服务连续性,不管天灾人祸都能保持一定水准的连续性;容量管理也不是一个短期的东西,需要根据业务需求变化而进行。

    需要说明的是来自业务部门的要求不断变化,因此服务管理也必须是一个连续的过程。在这个循环过程里面,要保证原则性的东西不变。

    如何划分人员角色?

    问:能否举例说明,按照ITIL,信息部门的人员角色如何划分呢?

    BMC:以数据中心为例进行具体分析,有面向技术也有面向用户的部门设置。传统的网络管理、数据管理、应用管理、操作系统管理,是以技术为导向,针对不同的技术特点形成的岗位设置,形成的不同团队。而面向用户即业务部门,就是ITIL中经常使用到的变更管理、问题管理等。

    服务台作为一个接口,其作用是要用户知道问题发生的时候要找谁,而不是直接找网络管理员或者信息管理员,而是首先应该找服务台。

    假定要做一个补丁的分发,应该有一个变更管理的角色来控制这个过程,因为这个过程很可能是跨越好几个组/团队的,需要有一个面向用户的管理员,由他来协调不同组/团队之间的合作关系。比如客户的账户管理,加账户或者减账户,这些都是最常见的问题。

    比如问题管理,有些问题总是解决不了,总是需要有一个人牵头去解决,这个事情的解决可能要牵涉到系统、数据库、应用等多方面。这就需要这个牵头的人在用户界面提供接口。比如提供桌面支持,面向常见用户产生的要求。比如说机器无法启动,安装办公软件等,常常会在用户界面设立一个团队来解决这些问题。

      


    另外就是后台的一些支撑部门,是一些策略性的部门,如容量管理。就是某一个人来进行容量管理的规划,根据未来一年或者半年业务方面可能产生的需求来做计划。

    问:在上述案例的数据中心中,ITIL设计的意义是什么?

    BMC:数据中心需要做一种战略性的规划设计,还有整个架构的设计。需要有人负责整个数据中心的框架工作,还有咨询服务,知识的共享或者内外知识的传递,来形成内部要做一件事情的共识。

    另外,比如项目管理主要指后台管理来保证整个项目的质量。还有安全管理,这是跨越多个部门的任务,其他的就是负责日常沟通的工作。

    这是一个典型的数据中心可能会出现的功能分布:技术方面就是按照环境来分解人员的责任;用户方面是根据客户需求来分解人员角色;支撑部门是根据全局来划分任务的,是策略性的任务划分。

    另外的一些部门设置就是因为支持的客户是远程的。比如说公司的远程部门,在某国、某地的派驻人员。这就是一个较大的IT部门可能的组织结构。

    问:在EDC(企业数据中心),怎样体现ITIL思想呢?

    BMC:从IT的整个人员布局来看,应该是围绕着数据中心来布局的。

    EDC MANAGER是围绕着数据中心这群人的一个管理者。比如BMC公司自己的数据中心有两个,一个是主,一个是备;一个位于休斯敦,一个位于硅谷;绝大部分IT人员也主要集中在那两个地方。然后其他地方都是些派出人员,比如整个亚太地区只有六个人,可能要支持整个亚太区的十几个分支办公室。EDC MANAGER 可能在德州,也可能有一个硅谷,这两者是平行的,其他的就是各区的派出机构。

    CMDB:建立业务视图

    问:如何从ITIL意义上理解CMDB(配置管理库)在企业中发挥的作用呢?

    BMC:一般企业需要一个CMDB,在做IT运营的时候需要这样的一个数据源,因为能够大大加快运营效率。从IT运营的发展目标来看,如果要强调精准性和效率,建立CMDB肯定是一个发展方向。

    从业务角度来看,它不仅仅实现对IT系统内部各个元素信息的跟踪,而是能够深入了解各个流程配置信息,并对配置信息进行共享。

    在实际工作中因为数据库维护的工作量很大,不可能靠人工来维护,业务人员希望拥有一个能够分担一部分工作的工具。这个工具能够扫描IT管理的环境,比如里面都有什么构件,使用的是什么版本等,以及它们之间是怎么连接起来的,这样可以减轻大量工作,而这就形成了CMDB的数据源。

    问:这是否意味着,在实际工作中,是需要一张业务视图来考察整个IT的运营情况?

    BMC:是的,需要有一张业务视图反映IT 环境。出现了什么问题,就可以到里面去找,会很清楚地知道这会影响什么,会关联什么,以及关联的原因。如果实际中有这个业务视图的话,会大大提高工作效率。

    除此之外,人们还需要基础架构来监测系统的运行状况,所有的结果将会以事件形式表现出来,然后根据事件与整个业务视图的关联来查找事件的原因、破坏程度大小、影响范围等方面的信息,最终确定会影响到的业务部门以及相关度大小。主要是通过事件与整个业务视图建立关联关系来提高工作效率。

    从服务台里得到这个业务影响信息之后,就可以启动相应的服务管理流程。

    再就是变更管理,在系统中,一个很小的变化,可能因为没有有效的管理而带来很大的影响,需要有一个变更流程来预防变更的风险。

    变更管理实际上是把许多人员放到一个系统里面,需要多种角色参与,来保证变更的风险是最小的,对整个系统没有影响。

    以某银行为例:其IT规模其实不大,有70多个服务器,40多个IT人员,组织机构并不是很大。但是承担的任务很大,它影响到很多银行和持卡用户,因此对IT运行的要求非常高。

    实施ITIL之后,该企业总结认为主要有三方面的收益:

    一、 业务的成功。他们的网络平台搭建用了3个月的时间。

    二、 实现不间断服务。因为银行后端问题不断,每天产生的事件量也比较大,而BMC的服务管理工具remedy提供了比较好的平台工具,缩短了故障处理时间。主要是流程控制方面做得比较好,保证了服务的连续性,采取了预防性的措施,把问题消灭在发生之前。


    三、 提高了客户满意度。BMC拥有专门针对Unix、Windows、WebLogic、BEA Tuxedo、DB2 UDB、Sybase、Oracle等的Patrol软件,通过和Patrol企业管理平台(PEM)的集成,这样可以监控和管理整个企业内部的IT设备和应用程序,在网络设备或计算机出现异常状况,会在业务视图里通过不同的颜色表现出来。

    例如,CPU占用率过高、硬盘剩余空间过低时,自动通知(短信通知)相关的技术人员,在故障发生之前就开始处理。

    同时,由于Patrol企业管理平台和Remedy操作请求系统套件(ARS)配合,在故障发生时,系统自动形成故障单,形成一个历史记录,并能够自动通知级别不同的技术人员来解决故障,自动化消除停机时间,缩短故障响应时间,使服务可用性和性能达到最大化,直接提高了其直接客户的满意度。

    另外,依靠Remedy Help Desk(帮助台软件),该企业可以为其间接客户—持卡人提供更加优质的服务。该企业的IT部门可以跟踪ATM、POS机等发生故障时的事件处理过程,通过记录所有的错误信息和标识,识别出反复出现的系统错误,并尽快用最有效的方法来解决,这样,可以积累故障解决方法,形成知识库,从而更高效地解决故障和预知故障。

    如何建立业务视图?

    问:一般而言,业务视图需要多长时间建立起来?

    BMC:真正做业务视图的时候不要追求一步到位,抓住几个核心的系统,以此为主线来建设。比如说有20个系统,不可能一下子把他们全部建设完全,一般情况下可以先找几个最重要的,以它为主线,从上往下建立模型,等收到效果之后再增加其他的系统。

    问:那么建立业务视图应该如何下手呢?

    BMC:建议纵向考虑问题,先找出核心,再围绕它来增加其他的信息系统,如果能够涵盖80%的信息量,就是个很不错的结果。目前如果能够把基础架构及其它们之间的相关关系弄出来,已经很有帮助了,能够根据数据来确定故障的所在处。

    问:在建立业务视图的过程中,是否可以实现与第三方的整合呢?

    答:整合有几个层面。首先是在基础技术监控和事件管理平台之间,这个地方可能需要整合。主要问题是把所有的工具整合到同一个系统中。另外,从事件管理平台到服务管理平台也是需要整合的。

    此前举例的公司在其成立之初就开始考虑整合问题,到2002年IT发展实际上已经到了一个相当先进的程度。到现在为止,这个项目也一直在建设和完善之中。在运行已经这么多年的基础上,一步步发展起来。

    专注于企业信息化,最近对股票数据分析较为感兴趣,可免费分享股票个股主力资金实时变化趋势分析工具,股票交流QQ群:457394862
  • 相关阅读:
    【Leetcode】23. Merge k Sorted Lists
    【Leetcode】109. Convert Sorted List to Binary Search Tree
    【Leetcode】142.Linked List Cycle II
    【Leetcode】143. Reorder List
    【Leetcode】147. Insertion Sort List
    【Leetcode】86. Partition List
    jenkins 配置安全邮件
    python 发送安全邮件
    phpstorm 同步远程服务器代码
    phpUnit 断言
  • 原文地址:https://www.cnblogs.com/omygod/p/578293.html
Copyright © 2011-2022 走看看