zoukankan      html  css  js  c++  java
  • linux 系统性能指标

    一、查看CPU使用情况

    cpu使用率反映的是当前cpu的繁忙程度,忽高忽低的原因在于占用cpu处理时间的进程可能处于io等待状态但却还未释放进入wait。

    平均负载(loadaverage)是指某段时间内占用cpu时间的进程和等待cpu时间的进程数,这里等待cpu时间的进程是指等待被唤醒的进程,不包括处于wait状态进程。

    1、良好状态指标

    CPU利用率:

    User Time <=70%,System Time <= 35%,User Time + System Time <= 70%。

    上下文切换:与CPU利用率相关联,如果CPU利用率状态良好,大量的上下文切换也是可以接受的。

    可运行队列:每个处理器的可运行队列<=3个线程。

    2、工具

    (1)vmstat

    字段说明:

    r (run queue)可运行队列的线程数,这些线程都是可运行状态,只不过CPU暂时不可用;
    
    b,被blocked的进程数,正在等待IO请求;
    
    in,interrupts,被处理过的中断数;
    
    cs,context switch,系统上正在做上下文切换的数目;
    
    us,用户占用CPU的百分比
    
    sys,内核和中断占用CPU的百分比
    
    id,CPU完全空闲的百分比

    (2)uptime

    [root@node1 ~]#uptime
    
    00:44:22 up 1:17,3 users, load average: 8.13, 5.90, 4,94
    
    显示的是过去的1,5,15分钟内进程队列中的平均进程数量 

    如何衡量当前系统是否负载过高?

    如果每个cpu(可以按CPU核心的数量计算)上当前活动进程数

    <=3,则系统性能良好,

    =4,表示可以接受

    >=5,则系统性能问题严重

    上面例中的8.13,如果有2个cpu核心,则8.13/2=4.065, 此系统性能可以接受

    建议设置严格的报警值为: CPU核心的数量

    比如:CPU核心数量为2,则设置报警值为2

    (3)top

    [root@node1 ~]#top
    
    top - 10:31:45 up14:51, 3 users, load average: 0.07, 0.33, 0.33
    
    Tasks: 91 total, 1running, 90 sleeping, 0 stopped, 0 zombie
    
    Cpu(s): 0.0%us,0.2%sy, 0.0%ni, 99.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
    
    Mem: 502288ktotal, 494648k used, 7640k free, 220k buffers
    
    Swap: 1015800ktotal, 21792k used, 994008k free, 238468k cached 

    从top 要看CPU负载情况,可以看%us和%sy,其中%us<=70%, %sy<=35%,

    %us+%sy<=70%说明状态良好,同时可以结合idle值来看,也就是%id,如果%id<=70% 则表示IO的压力较大

    查看某个进程占用的CPU资源

    二、Memory

    1、良好状态指标

    swap in (si) == 0,swap out (so) == 0

    应用程序可用内存/系统物理内存 <= 70%

    2、监控工具

    (1)vmstat

    三、磁盘IO

    1、良好状态指标

    iowait % < 20%

    提高命中率的一个简单方式就是增大文件缓存区面积,缓存区越大预存的页面就越多,命中率也越高。

    Linux 内核希望能尽可能产生次缺页中断(从文件缓存区读),并且能尽可能避免主缺页中断(从硬盘读),这样随着次缺页中断的增多,文件缓存区也逐步增大,直到系统只有少量可用物理内存的时候 Linux 才开始释放一些不用的页。

    2、监控工具

    (1)cat/proc/meminfo

    这台机器总共有 256MB 物理内存(MemTotal),90MB 左右可用内存(MemFree),8MB左右用来做磁盘缓存(Buffers),40MB左右用来做文件缓存区(Cached)。

    (2)sar

    await表示平均每次设备I/O操作的等待时间(以毫秒为单位)。

    svctm表示平均每次设备I/O操作的服务时间(以毫秒为单位)。

    %util表示一秒中有百分之几的时间用于I/O操作。

    如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢。

    如果%util接近100%,表示磁盘产生的I/O请求太多,I/O系统已经满负荷的在工作,该磁盘可能存在瓶颈。

    (3)iostat

    rrqm/s: 每秒进行 merge 的读操作数目。即 delta(rmerge)/s
    
    wrqm/s: 每秒进行 merge 的写操作数目。即 delta(wmerge)/s
    
    r/s: 每秒完成的读 I/O 设备次数。即 delta(rio)/s
    
    w/s: 每秒完成的写 I/O 设备次数。即 delta(wio)/s
    
    rsec/s: 每秒读扇区数。即 delta(rsect)/s
    
    wsec/s: 每秒写扇区数。即 delta(wsect)/s
    
    rkB/s: 每秒读K字节数。是 rsect/s 的一半,因为每扇区大小为512字节。(需要计算)
    
    wkB/s: 每秒写K字节数。是 wsect/s 的一半。(需要计算)
    
    avgrq-sz: 平均每次设备I/O操作的数据大小 (扇区)。delta(rsect+wsect)/delta(rio+wio)
    
    avgqu-sz: 平均I/O队列长度。即 delta(aveq)/s/1000 (因为aveq的单位为毫秒)。
    
    await: 平均每次设备I/O操作的等待时间 (毫秒)。即 delta(ruse+wuse)/delta(rio+wio)
    
    svctm: 平均每次设备I/O操作的服务时间 (毫秒)。即 delta(use)/delta(rio+wio)
    
    %util: 一秒中有百分之多少的时间用于 I/O 操作,或者说一秒中有多少时间 I/O 队列是非空的。即 delta(use)/s/1000 (因为use的单位为毫秒)
    
    如果 %util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘可能存在瓶颈。
    
    idle小于70% IO压力就较大了,一般读取速度有较多的wait.

    同时可以结合vmstat 查看查看b参数(等待资源的进程数)和wa参数(IO等待所占用的CPU时间的百分比,高过30%时IO压力高)

    四、Network IO

    对于UDP

    1、良好状态指标

    接收、发送缓冲区不长时间有等待处理的网络包

    2、监控工具

    netstat

    对于UDP服务,查看所有监听的UDP端口的网络情况

    RecvQ、SendQ为0,或者不长时间有数值是比较正常的。

    对于UDP服务,查看丢包情况(网卡收到了,但是应用层没有处理过来造成的丢包)

    packet receiveerrors 这一项数值增长了,则表明在丢包

    对于TCP

    1、良好状态指标

    对于TCP而言,不会出现因为缓存不足而存在丢包的事,因为网络等其他原因,导致丢了包,协议层也会通过重传机制来保证丢的包到达对方。

    所以,tcp而言更多的专注重传率。

    2、监控工具

    重传率 = RetransSegs / OutSegs

    至于这个值在多少范围内,算ok的,得看具体的业务了。

    业务则更关注的是响应时间。

    五、查看文件句柄数(文件描述符)

    查看系统默认的最大文件句柄数,系统默认是1024

    # ulimit -n

    1024

    查看当前进程打开了多少句柄数

    # lsof -n|awk '{print $1,$2}'|sort|uniq-c|sort -nr|more
    
    [root@node1 ~]#lsof -n|awk '{print $1,$2}'|sort|uniq -c|sort -nr
    
    125 master 1507
    
    58 sshd 1577
    
    48 mysqld 1451
    
    45 qmgr 1526
    
    45 pickup 1665
    
    36 sshd 1100
    
    20 rsyslogd 1064
    
    20 init 1
    
    19 crond 1527
    
    18 udevd 436

      ........

    其中第一列是打开的句柄数,第二列是进程ID。

    本文转载自:http://lib.csdn.net/article/linux/33040

  • 相关阅读:
    Makefile的介绍与使用(一)
    关于OpenWRT第一次编译时出现的一些问题
    ssh连接时出现 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! 解决办法
    ArcGIS 添加存WKT字符串的字段
    已连接的 RDBMS 实例未针对 Esri 空间类型配置进行相应设置
    ArcGIS10.2 安装好后,数据库连接的配置
    用Excel将中文转成大驼峰拼音
    将 Python 项目的所有py文件编译成.pyc
    地图要素增删改服务WFS: Openlayer+GeoServer+GeoPackage
    ArcGIS 和 QGIS 经常崩溃闪退的原因
  • 原文地址:https://www.cnblogs.com/momoyan/p/9163144.html
Copyright © 2011-2022 走看看