zoukankan      html  css  js  c++  java
  • 问题处理流程

     
    背景
      这里的问题主要是指那些一直运行正常,因为未知原因或突然的流量增大,导致系统异常。
     
    步骤
    1. 快速恢复(快速恢复系统正常运行,避免产生更大的损失)
      1. 重启应用服务器
      2. 重启中间件
      3. 下线问题机器
      4. 下线问题中间件
      5. 熔断、下线第三方服务
    2. 保留现场
      1. 保留其中一台故障节点不重启,移除这台机器的流量(目的是保留内存数据和环境数据)
      2. 监控系统:记录出现问题时段的机器参数、网络/磁盘IO状态、CPU/内存使用率、JVM数据、慢查询数据、日志数据、告警数据等
    3. 解决复盘
      1. 分析监控系统发现问题
      2. 分析日志发现问题
      3. 分析现场保留的节点信息:如线程池数据、内存、CPU数据、JVM数据等(及时导出数据,存档)

  • 相关阅读:
    JavaMail
    Web的文件下载
    Web的文件上传
    Tcp 数据对象传输接口对象设计
    m个元素中选取n的组合
    PyQT Quick Start
    版本发布自动触发测试
    plantUML 实操
    Python 版本对比
    Some Python Tricks
  • 原文地址:https://www.cnblogs.com/gossip/p/14015663.html
Copyright © 2011-2022 走看看