本文为joshua317原创文章,转载请注明:转载自joshua317博客 https://www.joshua317.com/article/191
一、简介
Linux下的sar(英文全称:System Activity Reporter,系统活动情况报告)是系统运行状态统计工具的命令,它将指定的操作系统状态计数器显示到标准输出设备。
sar工具将对系统当前的状态进行取样,然后通过计算数据和比例来表达系统的当前运行状态。它的特点是可以连续对系统取样,获得大量的取样数据。取样数据和分析的结果都可以存入文件,使用它时消耗的系统资源很小。
sar是目前 Linux上最为全面的系统性能分析工具之一,可以从多方面对系统的活动进行报告,包括:文件的读写情况、系统调用的使用情况、磁盘I/O、CPU效率、内存使用状况、进程活动及IPC有关的活动等。
如果系统没有安装,可以通过sudo yum install sysstat
来安装。
二、格式说明
sar [ options ] [ <interval> [ <count> ] ]
sar [参数]
Usage: sar [ options ] [ <interval> [ <count> ] ]
Options are:
[ -A ] [ -B ] [ -b ] [ -C ] [ -d ] [ -F [ MOUNT ] ] [ -H ] [ -h ] [ -p ] [ -q ] [ -R ]
[ -r ] [ -S ] [ -t ] [ -u [ ALL ] ] [ -V ] [ -v ] [ -W ] [ -w ] [ -y ]
[ -I { <int> [,...] | SUM | ALL | XALL } ] [ -P { <cpu> [,...] | ALL } ]
[ -m { <keyword> [,...] | ALL } ] [ -n { <keyword> [,...] | ALL } ]
[ -j { ID | LABEL | PATH | UUID | ... } ]
[ -f [ <filename> ] | -o [ <filename> ] | -[0-9]+ ]
[ -i <interval> ] [ -s [ <hh:mm:ss> ] ] [ -e [ <hh:mm:ss> ] ]
三、选项说明
-A 所有报告的总和
-b 显示I/O和传递速率的统计信息
-B 显示换页状态
-d 输出每一块磁盘的使用信息
-e 设置显示报告的结束时间
-f 从制定的文件读取报告
-i 设置状态信息刷新的间隔时间
-P 报告每个CPU的状态
-R 显示内存状态
–u 输出cpu使用情况和统计信息
–v 显示索引节点、文件和其他内核表的状态
-w 显示交换分区的状态
-x 显示给定进程的装
-r 报告内存利用率的统计信息
四、命令功能
五、常见用法
5.1 使用-R参数显示内存状态
# sar -R
#每间隔1秒统计一次内存状态
# sar -R 1
#每间隔1秒统计一次内存状态,总共统计5次
# sar -R 1 5
5.2 使用-r报告内存利用率的统计信息
# sar -r
#每间隔1秒统计一次内存利用率
# sar -r 1
#每间隔1秒统计一次内存利用率,总共统计5次
# sar -r 1 5
10:15:52 AM kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit kbactive kbinact kbdirty
10:15:53 AM 418204 7590452 94.78 211956 4688244 3511820 43.85 4589848 2338480 400
10:15:54 AM 417956 7590700 94.78 211956 4688244 3511820 43.85 4589848 2338480 92
10:15:55 AM 417956 7590700 94.78 211956 4688244 3511820 43.85 4589848 2338480 92
10:15:56 AM 417832 7590824 94.78 211956 4688252 3511824 43.85 4589848 2338488 100
10:15:57 AM 417460 7591196 94.79 211956 4688252 3511828 43.85 4589868 2338484 100
Average: 417882 7590774 94.78 211956 4688247 3511822 43.85 4589852 2338482 157
# kbmemfree 空闲的物理内存大小
# kbmemused 使用中的物理内存大小
# %memused 物理内存使用率
# kbbuffers 内核中作为缓冲区使用的物理内存大小,kbbuffers和kbcached:这两个值就是free命令中的buffer和cache.
# kbcached 缓存的文件大小
# kbcommit 保证当前系统正常运行所需要的最小内存,即为了确保内存不溢出而需要的最少内存(物理内存+Swap分区)
# commit 这个值是kbcommit与内存总量(物理内存+swap分区)的一个百分比的值
5.3 使用-b参数显示I/O速率
# sar -b
#每间隔1秒统计一次I/O速率
# sar -b 1
#每间隔1秒统计一次I/O速率,总共统计5次
# sar -b 1 5
10:18:56 AM tps rtps wtps bread/s bwrtn/s
10:18:57 AM 0.00 0.00 0.00 0.00 0.00
10:18:58 AM 0.00 0.00 0.00 0.00 0.00
10:18:59 AM 2.00 0.00 2.00 0.00 72.00
10:19:00 AM 1.00 0.00 1.00 0.00 8.00
10:19:01 AM 3.00 0.00 3.00 0.00 40.00
Average: 1.20 0.00 1.20 0.00 24.00
# tps 磁盘每秒钟的IO总数,等于iostat中的tps
# rtps 每秒钟从磁盘读取的IO总数
# wtps 每秒钟从写入到磁盘的IO总数
# bread/s 每秒钟从磁盘读取的块总数
# bwrtn/s 每秒钟此写入到磁盘的块总数
5.4 使用-d参数查看磁盘使用详情统计
# sar -d
#每间隔1秒查看磁盘使用详情统计
# sar -d 1
#每间隔1秒查看磁盘使用详情统计,总共统计5次
# sar -d 1 5
10:21:49 AM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util
10:21:50 AM dev253-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:21:50 AM dev11-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:21:50 AM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util
10:21:51 AM dev253-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:21:51 AM dev11-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:21:51 AM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util
10:21:52 AM dev253-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:21:52 AM dev11-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:21:52 AM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util
10:21:53 AM dev253-0 2.00 0.00 72.00 36.00 0.00 1.50 0.50 0.10
10:21:53 AM dev11-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:21:53 AM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util
10:21:54 AM dev253-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:21:54 AM dev11-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util
Average: dev253-0 0.40 0.00 14.40 36.00 0.00 1.50 0.50 0.02
Average: dev11-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
#DEV 磁盘设备的名称,如果不加-p,会显示dev253-0类似的设备名称,因此加上-p显示的名称更直接
# tps:每秒I/O的传输总数
# rd_sec/s 每秒读取的扇区的总数
# wr_sec/s 每秒写入的扇区的 总数
# avgrq-sz 平均每次次磁盘I/O操作的数据大小(扇区)
# avgqu-sz 磁盘请求队列的平均长度
# await 从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间,单位是毫秒(1秒等于1000毫秒),等于寻道时间+队列时间+服务时间
# svctm I/O的服务处理时间,即不包括请求队列中的时间
# %util I/O请求占用的CPU百分比,值越高,说明I/O越慢
5.5 使用-u参数显示CPU利用率
# sar -u
#每间隔1秒统计一次CPU利用率
# sar -u 1
#每间隔1秒统计一次CPU的使用情况,总共统计5次
# sar -u 1 5
10:01:57 AM CPU %user %nice %system %iowait %steal %idle
10:01:58 AM all 0.00 0.00 0.25 0.00 0.00 99.75
10:01:59 AM all 0.25 0.00 0.25 0.00 0.00 99.50
10:02:00 AM all 0.25 0.00 0.00 0.00 0.00 99.75
10:02:01 AM all 0.00 0.00 0.25 0.00 0.00 99.75
10:02:02 AM all 4.75 0.00 1.75 0.25 0.00 93.25
Average: all 1.05 0.00 0.50 0.05 0.00 98.40
#其中
# %user #用户空间的CPU使用
# %nice 改变过优先级的进程的CPU使用率
# %system 内核空间的CPU使用率
# %iowait CPU等待IO的百分比
# %steal 虚拟机的虚拟机CPU使用的CPU
# %idle 空闲的CPU
在以上参数中,主要看%iowait和%idle,%iowait过高表示存在I/O瓶颈,即磁盘IO无法满足业务需求,如果%idle过低表示CPU使用率比较严重,需要结合内存使用等情况判断CPU是否瓶颈。
5.6 使用-p参数显示CPU的使用状态
# sar -p
#每间隔1秒统计一次CPU的使用状态
# sar -p 1
#每间隔1秒统计一次CPU的使用状态,总共统计5次
# sar -p 1 5
10:06:33 AM CPU %user %nice %system %iowait %steal %idle
10:06:34 AM all 0.25 0.00 0.25 0.00 0.00 99.50
10:06:35 AM all 0.25 0.00 0.25 0.00 0.00 99.50
10:06:36 AM all 0.00 0.00 0.25 0.00 0.00 99.75
10:06:37 AM all 0.50 0.00 0.25 0.00 0.00 99.25
10:06:38 AM all 0.00 0.00 0.00 0.00 0.00 100.00
Average: all 0.20 0.00 0.20 0.00 0.00 99.60
5.7 使用-q参数查看平均负载
# sar -q#每间隔1秒统计一次系统负载#sar -q 1#每间隔1秒统计一次系统负载,总共统计5次#sar -q 1 510:23:11 AM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked10:23:12 AM 0 264 0.01 0.02 0.05 010:23:13 AM 0 265 0.01 0.02 0.05 010:23:14 AM 0 265 0.01 0.02 0.05 010:23:15 AM 0 264 0.01 0.02 0.05 010:23:16 AM 0 264 0.01 0.02 0.05 0Average: 0 264 0.01 0.02 0.05 0# runq-sz 运行队列的长度(等待运行的进程数,每核的CP不能超过3个)# plist-sz 进程列表中的进程(processes)和线程数(threads)的数量# ldavg-1 最后1分钟的CPU平均负载,即将多核CPU过去一分钟的负载相加再除以核心数得出的平均值,5分钟和15分钟以此类推# ldavg-5 最后5分钟的CPU平均负载# ldavg-15 最后15分钟的CPU平均负载
5.8 使用-v参数查看进程、inode、文件和锁表状态
# sar -v#每间隔1秒查看进程、inode、文件和锁表状态# sar -v 1#每间隔1秒查看进程、inode、文件和锁表状态,总共统计5次# sar -v 1 510:25:00 AM dentunusd file-nr inode-nr pty-nr10:25:01 AM 722442 2496 173855 310:25:02 AM 722466 2496 173863 310:25:03 AM 722466 2496 173863 310:25:04 AM 722466 2496 173863 310:25:05 AM 722466 2496 173863 3Average: 722461 2496 173861 3# dentunusd 在缓冲目录条目中没有使用的条目数量# file-nr 被系统使用的文件句柄数量# inode-nr 已经使用的索引数量 # pty-nr 使用的pty数量#这里面的索引和文件句柄值不是ulimit -a查看到的值,而是sysctl.conf里面定义的和内核相关的值, max-file表示系统级别的能够打开的文件句柄的数量, 而ulimit -n控制进程级别能够打开的文件句柄的数量,可以使用sysctl -a | grep inode和sysctl -a | grep file查看,具体含义如下:file-max中指定了系统范围内所有进程可打开的文件句柄的数量限制(系统级别, kernel-level)。 (The value in file-max denotes the maximum number of file handles that the Linux kernel will allocate)。当收到"Too many open files in system"这样的错误消息时, 就应该曾加这个值了。# cat /proc/sys/fs/file-max791241# echo 100000 > /proc/sys/fs/file-max或者# echo "fs.file-max=65535" >> /etc/sysctl.conf# sysctl -pnet.ipv4.ip_forward = 0net.ipv4.conf.default.rp_filter = 1net.ipv4.conf.default.accept_source_route = 0kernel.core_uses_pid = 1net.ipv4.tcp_syncookies = 1kernel.msgmnb = 65536kernel.msgmax = 65536net.ipv4.conf.all.promote_secondaries = 1net.ipv4.conf.default.promote_secondaries = 1net.ipv6.neigh.default.gc_thresh3 = 4096net.ipv4.neigh.default.gc_thresh3 = 4096kernel.softlockup_panic = 1kernel.sysrq = 1net.ipv6.conf.all.disable_ipv6 = 0net.ipv6.conf.default.disable_ipv6 = 0net.ipv6.conf.lo.disable_ipv6 = 0kernel.numa_balancing = 0kernel.shmmax = 68719476736kernel.printk = 5fs.file-max = 65535# cat /proc/sys/fs/file-nr2496 0 65535file-nr 可以查看系统中当前打开的文件句柄的数量。 他里面包括3个数字: 第一个表示已经分配了的文件描述符数量, 第二个表示空闲的文件句柄数量, 第三个表示能够打开文件句柄的最大值(跟file-max一致)。 内核会动态的分配文件句柄, 但是不会再次释放他们(这个可能不适应最新的内核了,在我的file-nr中看到第二列一直为0, 第一列有增有减) man bash, 找到说明ulimit的那一节:提供对shell及其启动的进程的可用资源(包括文件句柄, 进程数量, core文件大小等)的控制。 这是进程级别的, 也就是说系统中某个session及其启动的每个进程能打开多少个文件描述符, 能fork出多少个子进程等... 当达到上限时, 会报错"Too many open files"或者遇上Socket/File: Can’t open so many files等
5.9 使用-n参数统计网络信息
# sar -n#sar -n选项使用6个不同的开关:DEV,EDEV,NFS,NFSD,SOCK,IP,EIP,ICMP,EICMP,TCP,ETCP,UDP,SOCK6,IP6,EIP6,ICMP6,EICMP6和UDP6 ,DEV显示网络接口信息,EDEV显示关于网络错误的统计数据,NFS统计活动的NFS客户端的信息,NFSD统计NFS服务器的信息,SOCK显示套接字信息,ALL显示所有5个开关。它们可以单独或者一起使用。 #每间隔1秒统计网络信息# sar -n DEV 1#每间隔1秒统计网络信息,总共统计5次# sar -n DEV 1 510:35:40 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:35:41 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:35:41 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:35:41 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:35:42 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:35:42 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:35:42 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:35:43 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:35:43 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:35:43 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:35:44 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:35:44 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:35:44 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:35:45 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:35:45 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00Average: IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/sAverage: eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00Average: lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00# IFACE 本地网卡接口的名称# rxpck/s 每秒钟接受的数据包# txpck/s 每秒钟发送的数据库# rxKB/S 每秒钟接受的数据包大小,单位为KB# txKB/S 每秒钟发送的数据包大小,单位为KB# rxcmp/s 每秒钟接受的压缩数据包# txcmp/s 每秒钟发送的压缩包# rxmcst/s 每秒钟接收的多播数据包
5.10 使用-n参数统计网络设备通信失败信息
#每间隔1秒统计网络设备通信失败信息# sar -n EDEV 1#每间隔1秒统计网络设备通信失败信息,总共统计5次# sar -n EDEV 1 510:47:30 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:47:31 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:47:31 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:47:31 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:47:32 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:47:32 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:47:32 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:47:33 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:47:33 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:47:33 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:47:34 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:47:34 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:47:34 AM IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/s10:47:35 AM eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.0010:47:35 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00Average: IFACE rxerr/s txerr/s coll/s rxdrop/s txdrop/s txcarr/s rxfram/s rxfifo/s txfifo/sAverage: eth0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00Average: lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00# IFACE 网卡名称# rxerr/s 每秒钟接收到的损坏的数据包# txerr/s 每秒钟发送的数据包错误数# coll/s 当发送数据包时候,每秒钟发生的冲撞(collisions)数,这个是在半双工模式下才有# rxdrop/s 当由于缓冲区满的时候,网卡设备接收端每秒钟丢掉的网络包的数目# txdrop/s 当由于缓冲区满的时候,网络设备发送端每秒钟丢掉的网络包的数目# txcarr/s 当发送数据包的时候,每秒钟载波错误发生的次数# rxfram 在接收数据包的时候,每秒钟发生的帧对其错误的次数# rxfifo 在接收数据包的时候,每秒钟缓冲区溢出的错误发生的次数# txfifo 在发生数据包 的时候,每秒钟缓冲区溢出的错误发生的次数
5.11 使用-n参数统计socket连接信息
#每间隔1秒统计socket连接信息# sar -n SOCK 1#每间隔1秒统计socket连接信息,总共统计5次# sar -n SOCK 1 510:49:36 AM totsck tcpsck udpsck rawsck ip-frag tcp-tw10:49:37 AM 503 247 3 0 0 310:49:38 AM 503 247 3 0 0 310:49:39 AM 503 247 3 0 0 210:49:40 AM 503 247 3 0 0 210:49:41 AM 503 247 3 0 0 2Average: 503 247 3 0 0 2# totsck 当前被使用的socket总数# tcpsck 当前正在被使用的TCP的socket总数# udpsck 当前正在被使用的UDP的socket总数# rawsck 当前正在被使用于RAW的skcket总数# if-frag 当前的IP分片的数目# tcp-tw TCP套接字中处于TIME-WAIT状态的连接数量#如果你使用FULL关键字,相当于上述DEV、EDEV和SOCK三者的综合
5.12 使用-n参数统计TCP连接信息
#每间隔1秒统计TCP连接信息# sar -n TCP 1#每间隔1秒统计TCP连接信息,总共统计5次# sar -n TCP 1 510:51:35 AM active/s passive/s iseg/s oseg/s10:51:36 AM 1.00 0.00 7.00 6.0010:51:37 AM 1.00 0.00 11.00 10.0010:51:38 AM 1.00 0.00 7.00 7.0010:51:39 AM 0.00 0.00 1.00 1.0010:51:40 AM 0.00 0.00 1.00 1.00Average: 0.60 0.00 5.40 5.00# active/s 新的主动连接# passive/s 新的被动连接# iseg/s 接受的段# oseg/s 输出的段
5.13 sar -n 使用总结
5.14 将统计结果保存在文件并从文件读取内容
#sar -u -o /tmp/tmp1.txt 1 5 #保存之文件,保存后的文件是二进制的,无法使用vim和cat直接打开# sar -u -f /tmp/tmp1.txt #从二进制文件读取
5.15 其他命令使用汇总
默认监控: sar 1 5 // CPU和IOWAIT统计状态 (1) sar -b 1 5 // IO传送速率(2) sar -B 1 5 // 页交换速率(3) sar -c 1 5 // 进程创建的速率(4) sar -d 1 5 // 块设备的活跃信息(5) sar -n DEV 1 5 // 网路设备的状态信息(6) sar -n SOCK 1 5 // SOCK的使用情况(7) sar -n ALL 1 5 // 所有的网络状态信息(8) sar -P ALL 1 5 // 每颗CPU的使用状态信息和IOWAIT统计状态 (9) sar -q 1 5 // 队列的长度(等待运行的进程数)和负载的状态(10) sar -r 1 5 // 内存和swap空间使用情况(11) sar -R 1 5 // 内存的统计信息(内存页的分配和释放、系统每秒作为BUFFER使用内存页、每秒被cache到的内存页)(12) sar -u 1 5 // CPU的使用情况和IOWAIT信息(同默认监控)(13) sar -v 1 5 // inode, file and other kernel tablesd的状态信息(14) sar -w 1 5 // 每秒上下文交换的数目(15) sar -W 1 5 // SWAP交换的统计信息(监控状态同iostat 的si so)(16) sar -x 2906 1 5 // 显示指定进程(2906)的统计信息,信息包括:进程造成的错误、用户级和系统级用户CPU的占用情况、运行在哪颗CPU上(17) sar -y 1 5 // TTY设备的活动状态(18) sar -u -o /tmp/temp1.txt 1 5 #保存之文件,保存后的文件是二进制的,无法使用vim和cat直接打开(19) sar -u -f /tmp/temp1.txt #从二进制文件读取,将输出到文件(-o)和读取记录信息(-f)
5.15 拓展
(1) sysstat
sysstat 是 Linux 系统中的常用工具包。它的主要用途是观察服务负载,比如CPU和内存的占用率、网络的使用率以及磁盘写入和读取速度等。
sysstat 工具包中包含两类工具:
- 即时查看工具:iostat、mpstat、sar
- 累计统计工具:sar
也就是说,sar 具有这两种功能。因此,sar 是 sysstat 中的核心工具。
为了实现 sar 的累计统计,系统必须周期地记录当时的信息,这是通过调用 /usr/lib/sa/ 中的三个工具实现的:
- sa1 :收集并存储每天系统动态信息到一个二进制的文件中,用作 sadc 的前端程序
- sa2 :收集每天的系统活跃信息写入总结性的报告,用作 sar 的前端程序
- sadc :系统动态数据收集工具,收集的数据被写入一个二进制的文件中,它被用作 sar 工具的后端
在 CentOS 系统的默认设置中,以如下的方式使用这三个工具:
- 在守护进程 /etc/rc.d/init.d/sysstat 中使用
/usr/lib/sa/sadc -F -L -
命令创建当日记录文件,文件为/var/log/sa/saDD
,其中 DD 为当天的日期。当系统重新启动后,会向文件/var/log/sa/saDD
输出类似11: 37:16 AM LINUX RESTART
这样的行信息。 - 在 cron 任务 /etc/cron.d/sysstat 中每隔10分钟执行一次
/usr/lib/sa/sa1 1 1
命令,将信息写入文件/var/log/sa/saDD
- 在 cron 任务 /etc/cron.d/sysstat 中每天 23:53 执行一次
/usr/lib/sa/sa2 -A
命令,将当天的汇总信息写入文件/var/log/sa/saDD
可以修改 /etc/cron.d/sysstat 以适合您的需要。
另外,文件 /var/log/sa/saDD
为二进制文件,不能使用 more、less 等文本工具查看,必须用 sar 或 sadf 命令查看。
(2) 另外,网络相关的错误排查,可以有几种方式:
1 找系统类的错误, dmesg | tail2 直接的网络错误 sar -n ETCP 1 或者 sar -n EDEV 13 查看网络状态, netstat -s 或者 watch -d netstat -s4 网络状态的统计 ss -ant | awk '{++s[$1]} END {for(k in s) print k,s[k]}'
(3) 要判断一个系统瓶颈问题,有时需要几个 sar 命令选项结合起来使用,例如:
- 怀疑CPU存在瓶颈,可用
sar -u
和sar -q
等命令来查看 - 怀疑内存存在瓶颈,可用
sar -B
、sar -r
和sar -W
等命令来查看 - 怀疑I/O存在瓶颈,可用
sar -b
、sar -u
和sar -d
等命令来查看
本文为joshua317原创文章,转载请注明:转载自joshua317博客 https://www.joshua317.com/article/191