zoukankan      html  css  js  c++  java
  • 互联网产品线上故障管理规范

    备注:一年半以前网上搜索参考了多篇文章,结合实践做了修正和细化之后进行的内部规范,忘记收藏参考文的链接了。

    为了让产品人员和开发人员可以更快速解决问题,也为探索更好保证软件质量的方法,针对线上故障,需要规范的处理流程。QA/软件测试人员,在这个过程中需承担非常重要的规范制定和推动落地实施的责任。


    线上故障定义:

    • 产品研发完成,验收通过并发布生产环境后,用户反馈的问题都算线上故障。

    线上故障级别:

    互联网软件缺陷规范一文中的缺陷严重程度定义保持一致。

    故障报告标准

    • 什么情况的线上故障需要报告?
      block/critical - p0级
      - 需要故障调查报告 & 复盘会议
      对收益有很大影响。例如无法打开页面,无法操作
      对用户有很大影响。例如无法支付或提现

    • 什么情况的不需要报告?
      - 无需报告,但需要记录&简短案例分析
      简单用户体验或纯UI显示问题
      不影响用户使用核心功能的问题

    线上故障处理流程

    快速处理故障先让系统恢复正常以减少损失,比找到问题原因更重要。

    线上故障发现途径

    这个环节建议由QA/测试人员负责追踪,确保所有线上问题及其解决方案等系统化管理,并被详细记录。

    1. 主动发现——开发或者运维不经意间查看生产环境的error日志,或者例行检查监控项时,看到了一些异常的现象,进而发现了故障;

    2. 系统监控告警——通常包括cpu、内存、io、tcp连接数、disk、线程数、GC、连接池等各个服务器指标异常,可能是服务器出现了异常,但业务还未受到大面积影响;

    3. 业务监控告警——如用户登录失败率增加,订单堆积量增大,则意味着系统的异常已经很严重,影响了业务处理;

    4. 关联系统故障追溯——上游系统或者下游系统的故障处理追溯,可能和本系统有关系,而且情况已经变得很糟糕了,需要快速定位;

    5. 客服事件上报——通常业务异常带来的影响传递到用户,再从用户传递到客服人员,再到技术人员手里,存在一定时延,所以一旦有生产事件上报,严重性已经到了最高,技术人员的压力也会增大,会有领导的关注,产品经理询问和催促,客户人员焦虑带来的压力。

    线上故障处理常规思路

    研发人员需针对具体业务线形成线上故障处理思路,收集当前业务线故障常发的服务/系统及其解决方案并同步给团队。

    故障调查报告

    1. 模板参考

    2. 建议语言简洁明了,快速输出调查报告,解决方案侧重描述当前解决方案,长远改进措施也可后续输出。

    线上故障复盘会议

    人员:产品/研发发起,产品/开发/测试等相关人员参与
    时间:故障发生后一周之内
    Actions:

    1. 复盘故障原因、解决方案

    2. 进一步讨论改进措施,建立任务追踪并分配到人

    3. 改进措施的初步排期


    故障协调人

    1. 按产品线或项目组安排

    2. 协调人需有backup,能够第一时间响应并积极主动协

    
    
    
  • 相关阅读:
    Asp.Net Web API 2第十六课——Parameter Binding in ASP.NET Web API(参数绑定)
    博客园博客评论一个奇怪的现象~~这应该不是圣诞礼包
    Asp.Net Web API 2第十五课——Model Validation(模型验证)
    PostgresQL 中有没有rownum这样的,显示结果集的序号
    在postgresqlz中查看与删除索引
    Spring事务异常rollback-only
    spring之Environment
    Spring事务管理——回滚(rollback-for)控制
    类的静态方法无法使用aop拦截
    Spring/SpringBoot定义统一异常错误码返回
  • 原文地址:https://www.cnblogs.com/finer/p/14127611.html
Copyright © 2011-2022 走看看