Linux云服务器卡顿排查过程

zoukankan html css js c++ java

Linux云服务器卡顿排查过程
Linux云服务器卡顿怎么办？

当您发现云服务器的运行速度变慢或云服务器突然出现网络断开现象，则可能是云服务器的带宽和CPU使用率过高导致。

Linux实例带宽流量过高或CPU使用率高，您可以按如下步骤进行排查：
1. 问题定位：定位影响云服务器带宽和CPU使用率高的进程。
2. 问题处理：排查进程是否正常，并分类进行处理。
  
  正常进程：优化程序，或变更云服务器的配置
  
  异常进程：建议您手动关闭进程，或者借助第三方工具关闭进程。
本文相关操作命令以CentOS 7.2 64位操作系统为例。其它版本的Linux操作系统命令可能有所差异，具体情况请参阅相应操作系统的官方文档。

常用命令

Linux云服务器查看CPU使用率等性能相关问题时的常用命令如下：
- ps -aux
- ps -ef
- top
CPU占用率高问题定位
1. 使用VNC功能登录云服务器。
2. 执行如下命令查看当前系统的运行状态。
  
  top
  
  系统回显样例如下：
3. 查看显示结果。
  
  命令回显第一行：20:56:02 up 37 days，1 user, load average: 0.00, 0.01, 0.05的每个字段含义如下：
  
  系统当前时间为20:56:02，该云服务器已运行37天，当前共有1个用户登录，最近1分钟、最近5分钟和最近15分钟的CPU平均负载。
  
  命令回显第三行：CPU资源总体使用情况。
  
  命令回显第四行：内存资源总体使用情况。
  
  回显最下方显示各进程的资源占用情况。
  
  说明：
  
  在top页面，可以直接输入小写“q”或者在键盘上按“Ctrl+C”退出。
  
  除了直接输入命令，您还可以单击VNC登录页面屏幕右上角的“Input Command”，在弹出的对话框中粘贴或者输入相应命令，单击“Send”。
  
  在top运行中常用的内容命令如下：
  
  s：改变画面更新频率。
  
  l：关闭或开启第一部分第一行top信息的表示。
  
  t：关闭或开启第一部分第二行Tasks和第三行Cpus信息的表示。
  
  m：关闭或开启第一部分第四行Mem和第五行Swap信息的表示。
  
  N：以PID的大小的顺序排列进程列表。
  
  P：以CPU占用率大小的顺序排列进程列表。
  
  M：以内存占用率大小的顺序排列进程列表。
  
  h：显示命令帮助。
  
  n：设置在进程列表所显示进程的数量。
4. 通过ll /proc/PID/exe
  
  命令可以查看每个进程ID对应的程序文件。
CPU使用率高问题处理

对于导致CPU使用率高的具体进程，如果确认是异常进程，可以直接通过top命令终止进程。对于kswapd0进程导致的CPU使用率高的问题，则需要对应用程序进行优化，或者通过增加内存进行系统规格的升级。

kswapd0是系统的虚拟内存管理程序，如果物理内存不够用，系统就会唤醒kswapd0进程，由

kswapd0分配磁盘交换空间用作缓存，因而占用大量的CPU资源。
- 使用top命令终止CPU占用率高的进程
  
  您可以直接在top运行界面快速终止相应的异常进程。操作步骤如下：
  
  在top命令运行的同时，按下小写的“k”键。
  
  输入要终止进程的PID。
  
  进程的PID为top命令回显的第一列数值。例如，要终止PID为52的进程，直接输入“52”后回车。
  
  操作成功后，会出现如下图所示类似信息，按回车确认。
- kswapd0进程占用导致CPU使用率高
  
  可通过以下步骤排查进程的内存占用情况。
  
  通过top命令查看kswapd0进程的资源使用。
  
  如果kswapd0进程持续处于非睡眠状态，且运行时间较长，可以初步判定系统在持续的进行换页操作，可以将问题转向内存不足的原因来排查。
  
  通过vmstat命令进一步查看系统虚拟内存的使用情况。
  
  si：每秒从交换区写到内存的大小，由磁盘调入内存。
  
  so：每秒写入交换区的内存大小，由内存调入磁盘。
  
  对于内存不足问题，可以通过free、ps等命令进一步查询系统及系统内进程的内存占用情况，做进一步排查分析。
  
  临时可通过在业务空闲期重启应用或者系统释放内存。
  
  如果要从根本上解决内存不足的问题，需要对服务器内存进行扩容，扩大内存空间。如果不具备扩容的条件，可通过优化应用程序，以及配置使用大页内存来进行缓解。
带宽使用率高问题分析

如果是正常业务访问以及正常应用进程导致的带宽使用率高，需要升级服务器的带宽进行解决。如果是非正常访问，如某些特定IP的恶意访问，或者服务器遭受到了CC攻击。或者异常进程导致的带宽使用率高。可以通过流量监控工具nethogs来实时监测统计各进程的带宽使用情况，并进行问题进程的定位。
- 使用nethogs工具进行排查
  
  执行以下命令，安装nethogs工具。
```
     yum install nethogs -y
```
安装成功后可以通过netgos命令查看网络带宽的使用情况。

nethogs命令常用参数说明如下：
```
     -d：设置刷新的时间间隔，默认为 1s。
     -t：开启跟踪模式。
     -c：设置更新次数。
     device：设置要监测的网卡，默认是eth0。

     运行时可以输入以下参数完成相应的操作：

     - q：退出nethogs工具。
     - s：按发送流量大小的顺序排列进程列表。
     - r：按接收流量大小的顺序排列进程列表。
     - m：切换显示计量单位，切换顺序依次为KB/s、KB、B、MB。
```
1. 执行以下命令，查看指定的网络端口每个进程的网络带宽使用情况。
```
   nethogs eth1
```
```
     回显参数说明如下：
	 
     - PID：进程 ID。
     - USER：运行该进程的用户。
     - PROGRAM：进程或连接双方的IP地址和端口，前面是服务器的IP和端口，后面是客户端的IP和端口。
     - DEV：流量要去往的网络端口。
     - SENT：进程每秒发送的数据量。
     - RECEIVED：进程每秒接收的数据量。
```
1. 终止恶意程序或者屏蔽恶意访问IP。
  
  如果确认大量占用网络带宽的进程是恶意进程，可以使用kill PID命令终止恶意进程。
  
  如果是某个IP恶意访问，可以使用iptables服务来对指定IP地址进行处理，如屏蔽IP地址或限速。
- 使用Web应用防火墙防御CC攻击
  
  若服务遭受了CC攻击，请在Web应用防火墙控制台开启CC安全防护。Web应用防火墙的使用指导请参见web应用防火墙指导
我有梦，有远方，我会为了它们奔跑，奋斗，直到成为连我自己都佩服的人。
查看全文

相关阅读:
C. 1D Sokoban 二分，思维
 E. Almost Fault-Tolerant Database 暴力枚举 + 分类讨论 + 思维 Codeforces Round #704 (Div. 2)
Tkinter（六）：Checkbutton 复选按钮
 LeetCode260. 只出现一次的数字 III
LeetCode297. 二叉树的序列化与反序列化
 LeetCode300. 最长上升子序列
 LeetCode299. 猜数字游戏
 LeetCode295. 数据流的中位数
 你真的知道嵌入式系统的优先级吗？
学习4412开发板gdb和gdbserver的调试

原文地址：https://www.cnblogs.com/fengdejiyixx/p/14744146.html

Linux云服务器卡顿排查过程

Linux云服务器卡顿怎么办？

常用命令

CPU占用率高问题定位

CPU使用率高问题处理

带宽使用率高问题分析