zoukankan      html  css  js  c++  java
  • 线上故障处理流程

    保存现场关注点:

    1. 硬件环境:CPU、内存、硬盘、网络,相关命令:top -pH,sar,pidstat,vmstat,dstat,du -sh ,df -h,iotop
    2. 操作系统资源:文件描述符/链接数 ss -s,netstat
    3. jvm:线程数,ygc 频率、时长,ogc/fgc频率、时长,线程快照 jstack -l,堆信息jmap -heap,jmap -dump
    4. 应用状态:各接口进入流量速度、各接口流出请求速度、流出请求响应时间变化

    一般过程:

    主要考虑点

    1. 区分是逻辑问题还是性能问题。
    2. 性能问题先区分内因和外因:首先考虑外因,流量问题。其次是内因,再次分内因和外因,内因为服务自身代码或运行资源问题,外因为外部依赖。
    3. 谨慎考虑扩容,盲目扩容容易直接击垮下游。在外部流量激增和依赖性能骤降都不应考虑扩容方案
    4. 先止损,后定位。
    5. 分清核心链路和非核心链路,强依赖以及弱依赖,四个象限,四种不同 的决策思路

    与时间赛跑

    1. 核心链路单一决策点执行时间不宜超过10分钟,超过请升级(involve 更高level 的同事)或直接执行下一步判断,整体不宜超过15分钟。
    2. 非核心链路单一决策点执行时间不宜超过15分钟,超过请升级(involve 更高level 的同事)或直接执行下一步判断,整体不宜超过30分钟。
    3. 定时类不宜超过下次执行周期的一半

    备注与提醒

    1. 事前没有思考和准备的基本就是躺平等死,想在事前,做在事前。
  • 相关阅读:
    vue的自定义组件和组件传值
    VUE的语法笔记
    Vue 的语法
    about use Vue of methods
    移动端使用下拉加载的简单方法
    深入理解nodejs的next函数。koa的使用 app.params的使用
    ACM输入输出超级外挂(朋友你渴望力量吗)fread版本
    Codeforces 1028C(面积并/思维)
    HDU 2457(AC自动机+dp)
    HDU 2825(AC自动机+状压dp)
  • 原文地址:https://www.cnblogs.com/DengGao/p/14759762.html
Copyright © 2011-2022 走看看