zoukankan      html  css  js  c++  java
  • 集群监控

    集群监控

    监控指标

    1. load,系统负载,通过top和uptime指令来查看系统的load值,load值越大,系统的CPU越繁忙,一般来说,只要每个CPU当前的活动线程数不大于3,我们就认为负载是正常的,如果每个CPU的线程数大于5,则表示当前系统的负载已经非常高了。Load average 后面跟的三个值分别表示在过去一分钟,五分钟,十五分钟内系统的load值。
    2. CPU利用率, linux下,CPU的消耗主要在用户进程、系统进程、Nice时间、空闲时间、I/O等待时间、硬件中断时间、软件中断时间、丢失时间。通过指令top | grep Cpu,us(User Time)表示CPU执行用户进程所占用的时间,通常越高越好。sy(System Time)CPU执行内核进程所花费的时间,如果过高设计不合理。ni(Nice Time)系统调整进程优先级所花费的时间。id(Idle Time)CPU处于空闲时间,越低越好。wa(Waiting Time)CPU在I/O操作所花费的时间。hi(Hard Irq Time)系统处理硬件中断所占用的时间si(Soft Irq Time)系统处理软件中断所花费的时间。st(Steal Time)等待虚拟CPU的时间,st越高,表示当前虚拟机与该宿主机上的其他虚拟机间的CPU争用较为频繁。输入top指令后,按1可以查看每个核的CPU利用率,按“Shift+H”可以按照线程来查看CPU的消耗情况。
    3. 磁盘剩余空间,磁盘主要用来进行日志写入与文件存储,df –h能够看到磁盘的剩余空间。-h表示按照单位格式化输出。du --ax-depth=1 –h /home 查看home下深度为1的文件所有文件的大小。--max-depth=1表示递归文件的深度为1。
    4. 网络traffic,主要由于大促销好活动、热点事件等网络流量急剧上升引起的。sar –n DEV 1 2,(-n表示汇报网络状况,DEV表示查看的是各个网卡的网络流量,1表示每一秒抽样一次,2表示总共抽样2次)
    5. 磁盘I/O ,指令iostat –d –k,查看磁盘的I/O情况,-d表示查看磁盘的使用情况,-k表示以KB为单位
    6. 内存使用,指令free –m,cached和buffers的空间是预先留出来的,并没有被使用,所以如果free内存不够用时,可以使用cache和buffers来使用。vmstat可以查看虚拟内存的消耗情况。
    7. gps(query per second)每秒的查询数。影响因素:磁盘I/O,网络请求,多个CPU时间片
    8. rt(response time)响应时间。
    9. select/ps,每秒读数据库的记录数,可以通过增加读库来提高速度
    10. update/ps, delete/ps,分库,提高更新删除速度
    11. GC,减少Minor GC的时间与次数,减少Full GC的次数与时间
    12. ping,使用ICMP协议,ping可以检测网络链路是否通畅,远端主机能否到达。ping –c 4 192.168.0.5(-c表示执行ping的次数)、
    13. 应用测监测,使用curl指令,通过curl指令定时访问应用中预留的自检url,可以实时地感知到应用的健康状况,一旦系统无响应或者响应超时,可以输出警报信息,一杯相应的监控调度系统捕捉到,第一时间通知开发和运维人员进行处理。
    14. 业务监测,同样可以通过curl指令。

    心跳监测

  • 相关阅读:
    浅析Python模块的引入和调用
    一篇文章带你了解CSS定位知识
    盘点4大下载神器,教你分分钟搞定文件下载
    Mysql查询语句进阶知识集锦
    (原创)高DPI适配经验系列:(四)高DPI适配示例
    (原创)高DPI适配经验系列:(三)字体与字号、缩放锚点
    (原创)IconFont(矢量图标字体)在Winform中的应用
    (原创)高DPI适配经验系列:(二)按DPI范围适配
    (原创)高DPI适配经验系列:(一)缩放比例与DPI对应关系
    [C#] (原创)一步一步教你自定义控件——06,MaskLayer(遮罩层)
  • 原文地址:https://www.cnblogs.com/wzyxidian/p/5461285.html
Copyright © 2011-2022 走看看