zoukankan      html  css  js  c++  java
  • 四 上下文切换

    一  前言

     对“平均负载”一课的学习后,你可能会有疑问,进程在竞争cpu的时候并没有正在的运行,为何会导致系统的负载升高,其实贼魁祸首就是“上下文切换”。

    我们经常说linux是一个多任务的系统,它支持很多任务同时在运行。这里的“同时”仅仅是一个相对时间,其实他并非真正的在运行,只是系统在很短的时间内,将cpu

    轮流分配给他们,造成了错觉。

    二  何为“上下文”

    任务运行前,cpu都需要知道任务从哪里加载,从哪里开始,这对应cpu的两个概念“寄存器”和“程序计数器”。

    cpu寄存器:cpu内置的容量小、但速度极快的内存

    cpu计数器:cpu正在执行的指令的位置、或者即将执行的吓一条指令的位置。

    而这里的从哪里加载从哪里开始就是“上下文”了。

    三  何为“上下文切换”

    先把前一个任务的上下文(cpu寄存器和程序计数器)保存下来,然后加载新的任务的上下文到这些寄存器和程序计数器,最后再跳转到程序计数器的新位置,运行新任务。

    保存的上下文会存储在系统内核中,在任务重新被调度时再加载进来,因此不会影响任务的状态,看起来还是连续的。

    四 都说“任务”,何为“任务”,有哪些场景

    任务:进程,线程、中断等等。

    上下文切换的场景:进程上下文切换、线程上下文切换、中断上下文切换

    A  进程上下文切换

    两个概念:

    内核空间:最高权限,可访问所有资源

    用户空间:不能访问内存等硬件设备,必须通过系统调用陷入到内核中,才能访问这些资源。

    进程状态:内核态进程、用户态进程。

    一次系统调用涉及:保存用户态,切换到内核态,然后保存内核态,切换到用户态,所以:一次系统调用,其实发生了两次cpu上下文切换。

    什么时候会切换、进程什么时候会被调度到cpu上运行

    1  进程执行完成

    2  cpu时间被划分为一段段时间片,这些时间片被轮流分配给各个进程,但某个进程的时间片被耗尽了,就会被挂起,切换到其他等待cpu的进程上。

    3  正在运行的进程资源不足了(内存等等)

    4  程序有设置sleep()这样的函数时,也会主动挂起

    5  中断,硬件中断,进程会被挂起,转而执行内核中的中断服务程序。 

    B 线程上下文切换

    进程是资源拥有的基本单位,线程是调度的基本单位。

    当进程只有一个线程时,可以人为进程就等于线程。

    当进程拥有多个线程时,这些线程拥有相同的虚拟内存和全局变量等资源。这些资源在上下文切换时是不需要修改的。

    同进程的上下文切换、不同进程的上下文切换,而后者的切换涉及资源及全局变量等的切换,所以比前者需要消耗更多的资源。

    C 中断上下文切换

    中断上下文切换多为内核和硬件设备的交互,优先级最高,但中断次数过多时,要排查下问题了。

    五  你学到了什么?

    cpu上下文切换是必要的

    过多的cpu切换,会将时间消耗在寄存器、虚拟内存、内核栈等数据的保存和恢复上,而真正的运行时间却相应变短,导致系统的整体性能大大下降。

    六  案例分析

    案例前,我们还是了解分析工具

    vmstat、pidstat、sysbench

    vmstat:系统整体的上下文切换情况

    pidstat:查看每个进程的上下文切换信息

    sysbench:多线程进基准测试工具,可用来模拟上下文切换过多的问题

    [root@new-dev-02 ~]# vmstat 5
    procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
     r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
     1  0      0 4541440    872 3273768    0    0     0     1    0    0  0  0 100  0  0
     0  0      0 4541516    872 3273768    0    0     0     0   96  168  0  0 100  0  0
     0  0      0 4541020    872 3273772    0    0     0    12  345  483  1  1 98  0  0
     0  0      0 4541392    872 3273772    0    0     0     1  116  193  0  0 100  0  0
     1  0      0 4541392    872 3273772    0    0     0     3  123  194  0  0 100  0  0

    (每隔5s输出一组数据。vmstat:系统整体的上下文切换情况。)

    主要看四列内容:

    cs(context switch):每秒上下文切换数

    in(interrupt):每秒中断数

    r:正在运行和等待cpu的进程数,就绪队列的长度

    b:不可中断处于睡眠状态的进程数

    cs/in一般几百到1万都是正常的,是否有异常不能看数量,而是看增长,是否有数量级的增长

    [root@new-dev-02 ~]# pidstat -w 5
    Linux 3.10.0-327.el7.x86_64 (new-dev-02)        12/05/2018      _x86_64_        (4 CPU)
    
    06:29:57 PM   UID       PID   cswch/s nvcswch/s  Command
    06:30:01 PM     0         1      5.39      0.00  systemd
    06:30:01 PM     0         2      0.20      0.00  kthreadd
    06:30:01 PM     0         7      0.40      0.00  migration/0
    06:30:01 PM     0        13     51.70      0.00  rcu_sched
    06:30:01 PM     0        14     12.38      0.00  rcuos/0
    06:30:01 PM     0        15     18.76      0.00  rcuos/1
    06:30:01 PM     0        16     14.77      0.00  rcuos/2
    06:30:01 PM     0        17     14.37      0.00  rcuos/3
    06:30:01 PM     0        18      0.20      0.00  watchdog/0
    06:30:01 PM     0        19      0.20      0.00  watchdog/1
    06:30:01 PM     0        20      3.59      0.00  migration/1
    06:30:01 PM     0        24      0.20      0.00  watchdog/2
    06:30:01 PM     0        25      3.59      0.00  migration/2
    06:30:01 PM     0        29      0.20      0.00  watchdog/3
    06:30:01 PM     0        30      2.79      0.00  migration/3
    06:30:01 PM     0       126      2.00      0.00  kauditd

    (每隔5秒输出一组数据,查看每个进程的上下文切换信息。)

    主要看两列内容:

    cswch/s:自愿上下文切换,进程无法获取所需要的资源,导致的上下文切换,eg:内存、IO

    nvcswch/s:非自愿上下文切换,进程由于时间片已到等原因,发生的上下文切换,大量进程在抢cpu,就容易发生非自愿上下文切换

    [root@new-dev-02 ~]# sysbench --threads=16 --max-time=600 threads run
    WARNING: --max-time is deprecated, use --time instead
    sysbench 1.0.9 (using system LuaJIT 2.0.4)
    
    Running the test with following options:
    Number of threads: 16
    Initializing random number generator from current time
    
    
    Initializing worker threads...
    
    Threads started!

     (以16个线程运行10分钟为基准,模拟多线程切换的问题。)

    [root@new-dev-02 ~]# vmstat 1
    procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
     r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
    10  0      0 4528168    872 3277904    0    0     0     1    0    0  0  0 100  0  0
    10  0      0 4527516    872 3277908    0    0     0     0 92235 1403011  9 83  8  0  0
     9  0      0 4527656    872 3277908    0    0     0     0 86846 1216013  9 85  6  0  0
     7  0      0 4527656    872 3277908    0    0     0     0 136527 1989414  9 82  9  0  0
     9  0      0 4527656    872 3277908    0    0     0     8 95233 1414369 10 83  7  0  0
     8  0      0 4527656    872 3277908    0    0     0     0 144712 2087200  8 83  9  0  0
     9  0      0 4527656    872 3277908    0    0     0     0 145905 2079661  8 83  8  0  0
     9  0      0 4527904    872 3277908    0    0     0     0 110694 1598545  8 84  8  0  0
     7  0      0 4527904    872 3277908    0    0     0     0 98367 1467209  9 84  7  0  0

     可以看到上下文切换骤增到几百万,而内核态高达80%以上,说明cpu主要是被内核占用了。

    in中断数也上升了几个数量级,说明中断也是个问题。

    [root@new-dev-02 ~]# pidstat -wt 3
    Average:      UID      TGID       TID   cswch/s nvcswch/s  Command
    Average:        0     26257         -      1.99      0.00  tmux
    Average:        0         -     26257      1.99      0.00  |__tmux
    Average:        0         -     27632      7.64      0.00  |__skynet-log-agen
    Average:        0         -     27634      2.99      0.00  |__skynet-log-agen
    Average:        0         -     27635      3.65      0.00  |__skynet-log-agen
    Average:        0         -     27638      1.99      0.00  |__skynet-log-agen
    Average:        0         -     29826      1.83      0.00  |__skynet-log-agen
    Average:        0         -     27845  15268.27  64202.33  |__sysbench
    Average:        0         -     27846  16345.85  62577.41  |__sysbench
    Average:        0         -     27847  14405.32  63026.08  |__sysbench
    Average:        0         -     27848  14869.44  64488.04  |__sysbench
    Average:        0         -     27849  15573.59  63047.51  |__sysbench
    Average:        0         -     27850  16163.79  60573.59  |__sysbench
    Average:        0         -     27851  16725.91  61787.04  |__sysbench
    Average:        0         -     27852  17136.21  59015.28  |__sysbench
    Average:        0         -     27853  15716.45  64353.32  |__sysbench
    Average:        0         -     27854  15731.56  60625.75  |__sysbench
    Average:        0         -     27855  13386.88  66363.62  |__sysbench
    Average:        0         -     27856  14435.71  58306.64  |__sysbench
    Average:        0         -     27857  17515.61  60852.66  |__sysbench
    Average:        0         -     27858  18863.46  61730.07  |__sysbench
    Average:        0         -     27859  15648.50  62887.04  |__sysbench
    Average:        0         -     27860  13665.28  64576.58  |__sysbench

    -wt:输出线程的上下文切换。

    Every 2.0s: cat /proc/interrupts                                                                                           Wed Dec  5 19:10:49 2018
    
               CPU0       CPU1       CPU2       CPU3
      0:         51          0          0          0   IO-APIC-edge      timer
      1:         10          0          0          0   IO-APIC-edge      i8042
      4:       1964          4          0          0   IO-APIC-edge      serial
      6:          3          0          0          0   IO-APIC-edge      floppy
      8:          0          0          0          0   IO-APIC-edge      rtc0
      9:          0          0          0          0   IO-APIC-fasteoi   acpi
     10:          1          0    1918801          0   IO-APIC-fasteoi   virtio2
     11:         33          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb1
     12:        144          0          0          0   IO-APIC-edge      i8042
     14:          0          0          0          0   IO-APIC-edge      ata_piix
     15:          0          0          0          0   IO-APIC-edge      ata_piix
     24:          0          0          0          0   PCI-MSI-edge      virtio1-config
     25:       5383    3830244          0          0   PCI-MSI-edge      virtio1-req.0
     26:          0          0          0          0   PCI-MSI-edge      virtio0-config
     27:  296706427          0          0          0   PCI-MSI-edge      virtio0-input.0
     28:          2        479          0       1833   PCI-MSI-edge      virtio0-output.0
    NMI:          0          0          0          0   Non-maskable interrupts
    LOC:  621848506  631386347  475404184  554846515   Local timer interrupts
    SPU:          0          0          0          0   Spurious interrupts
    PMI:          0          0          0          0   Performance monitoring interrupts
    IWI:   47281241   26695606   12460055   12552363   IRQ work interrupts
    RTR:          0          0          0          0   APIC ICR read retries
    RES:  107687233  115995935   85400128   83626343   Rescheduling interrupts
    CAL:    1044804 4294921874    1316243     668146   Function call interrupts
    TLB:    3770465    5407326    4488783    4455166   TLB shootdowns
    TRM:          0          0          0          0   Thermal event interrupts

  • 相关阅读:
    badblocks 检查硬盘是否有坏道
    IE兼容性开发的笔记
    Linux下设置ip和主机名进行绑定
    netty httpserver
    netty websocket协议开发
    OAuth2.0和SSO授权的区别
    window.location.href跳转问题2
    修改密码,验证两次输入是否相同,相同才能提交
    (2)集合 遍历set集合
    (1)集合 ---遍历map集合
  • 原文地址:https://www.cnblogs.com/fengzhihai/p/10071958.html
Copyright © 2011-2022 走看看