系统运维常用命令
实际的生产环境下,不论是研发还是运维,或多或少的得面对在linux上定位问题这个关卡,这里介绍一下linux环境下一些状态查看常用的命令。
1|0系统资源监控
1|1总体资源占用情况查看
命令:top
像windows一样,linux也有一个“进程管理”,可以在命令行执行 top ,就可以整体的查看当前机器的资源及进程情况。
这里第一行 (top) 显示的信息包含:
系统时间:19:27:01
运行时间:up 54 min,
当前登录用户: 1 user
负载均衡(uptime) load average: 0.02, 0.03, 0.00
average后面的三个数分别是1分钟、5分钟、15分钟的负载情况。
load average数据是每隔5秒钟检查一次活跃的进程数,然后按特定算法计算出的数值。如果这个数除以逻辑CPU的数量,结果高于5的时候就表明系统在超负荷运转了
第二行 (Tasks)显示的当前的进程整体统计
第三行 (%CPU)是CPU状态信息,具体为:
0.0%us【user space】— 用户空间占用CPU的百分比。
0.1%sy【sysctl】— 内核空间占用CPU的百分比。
0.0%ni【】— 改变过优先级的进程占用CPU的百分比
99.9%id【idolt】— 空闲CPU百分比
0.0%wa【wait】— IO等待占用CPU的百分比
0.0%hi【Hardware IRQ】— 硬中断占用CPU的百分比
0.0%si【Software Interrupts】— 软中断占用CPU的百分比
第四行 (KiB Mem)整体内存的状态,分别为总量,已用,空闲,缓存
第五行 (KiB Swap)交换区内存
最后是各进程的状况
这里说一下第四行和第五行,第四行中使用中的内存总量(used)指的是现在系统内核控制的内存数,空闲内存总量(free)是内核还未纳入其管控范围的数量。
对于内存监控,也就是说我们对于内存的监控主要是看第五行swap交换分区的used,如果这个数值在不断的变化,说明内核在不断进行内存和swap的数据交换,这是真正的内存不够用了。
命令:top -p [pid]
除了整体来看,我们也可以锁定单个进程的资源情况进行查看。
例如: top -p 1864
详细内容为
PID — 进程id
USER — 进程所有者
PR — 进程优先级
NI — nice值。负值表示高优先级,正值表示低优先级
VIRT — 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
RES — 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
SHR — 共享内存大小,单位kb
S —进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
%CPU — 上次更新到现在的CPU时间占用百分比
%MEM — 进程使用的物理内存百分比
TIME+ — 进程使用的CPU时间总计,单位1/100秒
COMMAND — 进程名称(命令名/命令行)
1|2计算机端口关联进程查看
这里也是我们最经常用到的,不管是安装新应用,还是排查应用的进程情况,都需要一个去了解端口是否被占用,或者根据端口来拿到一个进程的pid。
命令:lsof -i: [端口号]
例如:lsof -i:22
这里,我们以查看22端口被监听的进程为例,这一就能得出,22这个端口被哪一进程监听,从而得到Pid等多个参数。
COMMAND 进程名称 | PID 进程标识符 | USER 进程所有者 | FD 文件描述符 | TYPE 文件类型 | DEVICE 指定磁盘名称|SIZE 文件大小 | NODE 索引节点 | NAME 打开文件的确切名称
有些系统可能并没有lsof命令,如果系统在互联网环境下,可以执行 yum install lsof 进行安装。
命令:netstat -tunlp | grep [端口号]
有些环境下的linux可能并没有安装lsof,并不支持lsof命令,我们又无法安装losf的时候,我们可以使用linux自带的netstat来定位。
例如: netstat -tunlp | grep 22
这里,根据netstat提供的信息,可以知道哪些进程在监听22端口,并且得知进程唯一标识pid 。
关于 netstat命令的其他参数这里不过多解释,可以自行某度,同样,若系统无该命令,可以使用 yum -y install net-tools 进行安装。
1|3计算机内存状态查看
命令:free -g
除了前面的top可以查看内存的情况,也可以单独的查看当前linux内存的状况,那就是 free -g 命令
例如:free -g
详细字段解释为:
total:表示 总计物理内存的大小。
used:表示 已使用多少。
free:表示 可用内存多少。
Shared:表示多个进程共享的内存总额。
Buffers/cached:表示 磁盘缓存的大小。
这里对于内存的监控同top一样,我们还是主要关心 swap 这一栏。
命令:cat /proc/meminfo
确切地说,这个不能叫做命令,只是一个打开系统级参数文件的查看,proc目录下放着系统的一些资源情况的文件。
清空缓存:echo3 >/proc/sys/vm/drop_caches
当在Linux下频繁存取文件后,物理内存会很快被用光,当程序结束后,内存不会被正常释放,而是一直作为caching,一直被占用着,会导致上面的top以及free命令查看的内存计算不够准确,这时候我们可以通过执行 echo3 >/proc/sys/vm/drop_caches 来进行手动释放缓存。
关于清除缓存的详细细节可以看一下 https://blog.csdn.net/qq_36357820/article/details/79798788
1|4计算机CPU状态查看
命令:cat /proc/cpuinfo
和上面的内存一样,这也是在proc这个目录下查看当前机器的cpu状况
例如:cat /proc/cpuinfo
详细字段解释:
processor :系统中逻辑处理核的编号。对于单核处理器,则课认为是其CPU编号,对于多核处理器则可以是物理核、或者使用超线程技术虚拟的逻辑核
vendor_id :CPU制造商
cpu family :CPU产品系列代号
model :CPU属于其系列中的哪一代的代号
model name:CPU属于的名字及其编号、标称主频
stepping :CPU属于制作更新版本
cpu MHz :CPU的实际使用主频
cache size :CPU二级缓存大小
physical id :单个CPU的标号
siblings :单个CPU逻辑物理核数
core id :当前物理核在其所处CPU中的编号,这个编号不一定连续
cpu cores :该逻辑核所处CPU的物理核数
apicid :用来区分不同逻辑核的编号,系统中每个逻辑核的此编号必然不同,此编号不一定连续
fpu :是否具有浮点运算单元(Floating Point Unit)
fpu_exception :是否支持浮点计算异常
cpuid level :执行cpuid指令前,eax寄存器中的值,根据不同的值cpuid指令会返回不同的内容
wp :表明当前CPU是否在内核态支持对用户空间的写保护(Write Protection)
flags :当前CPU支持的功能
bogomips :在系统内核启动时粗略测算的CPU速度(Million Instructions Per Second)
clflush size :每次刷新缓存的大小单位
cache_alignment :缓存地址对齐单位
address sizes :可访问地址空间位数
power management :对能源管理的支持,有以下几个可选支持功能:ts: temperature sensor
fid: frequency id control
vid: voltage id control
ttp: thermal trip
tm:
stc:
100mhzsteps:
hwpstate:
命令:uptime
如果再细致一点,查看当前系统的负载情况,可以使用 uptime来进行查看
例如:uptime
这里,第一项是当前时间,up 表示系统正在运行,5:53 是系统启动的总时间,最后是系统的负载load信息。
系统负载是处于可运行runnable或不可中断uninterruptable状态的进程的平均数。可运行状态的进程要么正在使用 CPU 要么在等待使用 CPU。 不可中断状态的进程则正在等待某些 I/O 访问,例如等待磁盘 IO。 有三个时间间隔的平均值。负载均值的意义根据系统中 CPU 的数量不同而不同,负载为 1 对于一个只有单 CPU 的系统来说意味着负载满了,而对于一个拥有 4 CPU 的系统来说则意味着 75% 的时间里都是空闲的。
1|5计算机存储状态查看
命令:df -h
可以对整体的Linux进行一下磁盘整体使用情况的查看
例如:df -h
Filesystem:文件系统
Size: 分区大小
Used: 已使用容量
Avail: 还可以使用的容量
Use%: 已用百分比
Mounted on: 挂载点
此外,还有部分额外命令
df -hl:查看磁盘剩余空间
df -h:查看每个根路径的分区大小
du -sh [目录名]:返回该目录的大小
du -sm [文件夹]:返回该文件夹总M数
du -h [目录名]:查看指定文件夹下的所有文件大小(包含子文件夹)
1|6杀死进程
命令:kill
杀死一个进程 ,在linux中我们使用kill命令,kill命令的基本格式是 kill [参数] [进程号],这里要说一下这个参数位置,这个参数可放kill的基本参数,具体这里就不多说了,可以自行去了解,另外可以放信号,信号的意思是向操作系统发送一个杀死进程的命令,并携带额外的信息,例如是强制杀死,还是由你系统稍后杀死。
kill命令可以带信号号码选项,也可以不带。如果没有信号号码,kill命令就会发出终止信号(15),这个信号可以被进程捕获,使得进程在退出之前可以清理并释放资源。也可以用kill向进程发送特定的信号。
例如我想强制杀死一个进程,立即执行,那信号值为9 即:kill -9 12342
2|0实际应用:定位进程
2|1找到PID
一般系统出现了问题(系统卡顿、程序缓慢、服务无响应……),我们可以通过各种手段去定位问题,使用最多的思路就是,根据全局的资源信息判断造成问题的进程是哪个,通过上面介绍的 top命令就可以看到整体的系统情况,从中找到资源占用最大的或者认为有问题的进程;
2|2根据PID找到进程所在程序的位置
方式一: 命令 ps -aux | grep -v grep | grep [pid]
我们已经通过top 找到了PID,下面通过命令锁定进程1864进程。
ps -aux |grep -v grep|grep 1864
方式二:命令 ps -ef | grep [进程/程序关键字]
或者你事先知道你要定位的程序名称 使用 ps -ef | grep [进程/程序关键字] , 例如 我们想知道tomcat的进程
ps -ef | grep tomcat
这时候就能得到进程的基本信息
方式三: 查看 /proc/[PID] 目录
就像之前看内存一样,我们可以直接从 /proc目录下,查看当前运行进程的情况
cd /proc/1864
然后,通过ll命令查看
__EOF__