zoukankan      html  css  js  c++  java
  • 如何对系统进行监控告警?

    监控是为了能让系统维护人员快速发现生产问题并定位到原因。

    告警的类型有:

    • 批处理效率:包括日终跑批处理效率和数据处理效率。需要配置超时阀值及监控。
    • 流量监控:主要监控的指标有:TPS(每秒完成事务量)、HPS(每秒服务端收到的请求数)、IOPS(单位时间内系统能处理的IO请求数量)、QPS(每秒服务端响应客户端的查询数量)。
    • 异常监控:程序异常等,可以记录失败响应码及相关的报错信息到日志中。
    • 资源利用率:生产环境配置系统资源时需要对系统资源利用率有一个预测,比如redis何时会耗尽内存,数据库何时会用光磁盘,需要在资源达到饱和前设置阀值,提前做好系统扩容。

    监控系统需要考虑几个指标:

    1. 根据监控目标来指定监控指标采样频率,频率过高会增加监控成本。
    2. 监控覆盖了最好能覆盖所有核心指标。
    3. 监控需要注意有效性,不是越多越好。
    4. 需要注意告警时效,不同的告警应有不同的应对时效,不是所有告警都需要开发人员马上处理。
    5. 为避免长尾效应,最好不要使用平均值。

    以上参考:https://mp.weixin.qq.com/s/1sFYTtruqd9Dcmw4s6IY8g

  • 相关阅读:
    《软件需求十步走》读书笔记二
    《软件需求十步走》读书笔记一
    FJUTOJ-周赛2016-12-16
    FJUTOJ-周赛2016-11-25
    网络爬虫
    树链剖分讲解
    HDU 5266 pog loves szh III
    HDU 3518 Boring counting
    HDU 5929 Basic Data Structure
    HDU 1055 Color a Tree
  • 原文地址:https://www.cnblogs.com/smallzhen/p/14672580.html
Copyright © 2011-2022 走看看