zoukankan      html  css  js  c++  java
  • 漫话NUMA

    在DPDK中,使用了NUMA技术,来提高CPU对内存的访问效率.那么什么是NUMA呢,它是如何提高CPU访问内存的效率的呢?

    首先,我们先明确几个概念,即,SMP、NUMA、MPP。它们是目前主流的计算机系统架构。

    SMP(Symmetric Multi-Processor):对称多处理结构。在这样的系统中,多个 CPU 对称工作,无主次或从属关系。所有的CPU共享全部资源,如总线,内存和I/O系统等,多个CPU之间没有区别,平等地访问内存、外设、一个操作系统。每个 CPU 访问内存中的任何地址所需时间是相同的,因此 SMP 也被称为一致存储器访问结构 (UMA : Uniform Memory Access) 。操作系统管理着一个队列,每个处理器依次处理队列中的进程。如果两个处理器同时请求访问一个资源(例如同一段内存地址),由硬件、软件的锁机制去解决资源争用问题。

    SMP 服务器的主要特征是共享,系统中所有资源 (CPU 、内存、 I/O 等 ) 都是共享的。也正是由于这种特征,导致了 SMP 服务器的主要问题,那就是它的扩展能力非常有限。对于 SMP 服务器而言,每一个共享的环节都可能造成 SMP 服务器扩展时的瓶颈,而最受限制的则是内存。由于每个 CPU 必须通过相同的内存总线访问相同的内存资源,因此随着 CPU 数量的增加,内存访问冲突将迅速增加,最终会造成 CPU 资源的浪费,使 CPU 性能的有效性大大降低。实验证明, SMP 服务器 CPU 利用率最好的情况是 2 至 4 个 CPU 。

    NUMA(Non-Uniform Memory Access):非一致存储访问结构。NUMA 服务器的基本特征是具有多个 CPU 模块,每个 CPU 模块由多个 CPU( 如 4 个 ) 组成,并且具有独立的本地内存、 I/O 槽口等。由于其节点之间可以通过互联模块 ( 如称为 Crossbar Switch) 进行连接和信息交互,因此每个 CPU 可以访问整个系统的内存 ( 这是 NUMA 系统与 MPP 系统的重要差别 ) 。显然,访问本地内存的速度将远远高于访问远地内存 ( 系统内其它节点的内存 ) 的速度,这也是非一致存储访问 NUMA 的由来。由于这个特点,为了更好地发挥系统性能,开发应用程序时需要尽量减少不同 CPU 模块之间的信息交互。

    NUMA 技术同样有一定缺陷,由于访问远地内存的延时远远超过本地内存,因此当 CPU 数量增加时,系统性能无法线性增加。

    MPP(Massive Parallel Processing):海量并行处理结构。和 NUMA 不同, MPP 提供了另外一种进行系统扩展的方式,它由多个 SMP 服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统。MPP 的节点互联机制是在不同的 SMP 服务器外部通过 I/O 实现的,每个节点只访问本地内存和存储,节点之间的信息交互与节点本身的处理是并行进行的。其基本特征是由多个 SMP 服务器 ( 每个 SMP 服务器称节点 ) 通过节点互联网络连接而成,每个节点只访问自己的本地资源 ( 内存、存储等 ) ,是一种完全无共享 (Share Nothing) 结构,因而扩展能力最好,理论上其扩展无限制,目前的技术可实现 512 个节点互联,数千个 CPU 。

    了解了三种系统架构的不同之后,我们再来了解一下同一物理设备内的NUMA Node、Socket、Core、Logical Processor、超线程技术Hyper-threading这四个名词分别指什么。

    超线程技术Hyper-threading:就是在一个CPU Core上集成了两个逻辑处理器单元,即,两个Logical Processor。

    一个NUMA node包括一个或者多个Socket,以及与之相连的local memory。一个多核的Socket有多个Core。如果CPU支持HT,OS还会把这个Core看成 2个Logical Processor。如下图:

    NUMA Node:

    查看当前系统的Numa Node:

    1、numactl –hardware命令

    [root@YMOS_DEFAULT ~]# numactl --hardware
    available: 2 nodes (0-1)
    node 0 cpus: 0 1 2 3
    node 0 size: 8183 MB
    node 0 free: 4255 MB
    node 1 cpus: 4 5 6 7
    node 1 size: 8192 MB
    node 1 free: 6139 MB
    node distances:
    node   0   1 
      0:  10  21 
      1:  21  10 
    [root@YMOS_DEFAULT ~]#

    2、查看系统/sys/devices/system/node/目录下有几个node。

    [root@YMOS_DEFAULT ~]# ls -tlr /sys/devices/system/node/
    total 0
    drwxr-xr-x 3 root root    0 2014-11-12 19:03 node1
    drwxr-xr-x 3 root root    0 2014-11-12 19:03 node0
    -rw-r--r-- 1 root root 4096 2014-11-20 16:27 uevent
    -r--r--r-- 1 root root 4096 2014-11-20 16:27 possible
    -r--r--r-- 1 root root 4096 2014-11-20 16:27 online
    -r--r--r-- 1 root root 4096 2014-11-20 16:27 has_normal_memory
    -r--r--r-- 1 root root 4096 2014-11-20 16:27 has_cpu

    Socket:

    查看当前系统有几个socket:

    [root@YMOS_DEFAULT ~]# cat /proc/cpuinfo | grep "physical id"
    physical id     : 0
    physical id     : 0
    physical id     : 0
    physical id     : 0
    physical id     : 1
    physical id     : 1
    physical id     : 1
    physical id     : 1

    可以看出,有两个socket,0和1。

    Core:

    查看当前系统有哪些core:

    [root@YMOS_DEFAULT ~]# cat /proc/cpuinfo | grep "core id"
    core id         : 0
    core id         : 1
    core id         : 9
    core id         : 10
    core id         : 0
    core id         : 1
    core id         : 9
    core id         : 10

    一个socket有4个core。分别为0、1、9、10.

    Logical Processor:

    查看当前系统的Logical Processor:

    [root@YMOS_DEFAULT ~]# cat /proc/cpuinfo | grep "processor"
    processor       : 0
    processor       : 1
    processor       : 2
    processor       : 3
    processor       : 4
    processor       : 5
    processor       : 6
    processor       : 7
    [root@YMOS_DEFAULT ~]#

    Cache:

    ls /sys/devices/system/cpu/cpu0/cache/查看CPU0的cache的详细信息。

    [root@YMOS_DEFAULT ~]# ls /sys/devices/system/cpu/cpu0/cache/
    index0  index1  index2  index3
    [root@YMOS_DEFAULT ~]#
    index0:1级数据cache
    index1:1级指令cache
    index2:2级cache
    index3:3级cache ,对应cpuinfo里的cache

    通过查看各个CPU的index3的shared_cpu_map的,可以发现,一个socket上每个core共享L3 Cache。

    [root@YMOS_DEFAULT ~]# cat /sys/devices/system/cpu/cpu0/cache/index3/shared_cpu_map
    00000000,0000000f
    [root@YMOS_DEFAULT ~]# cat /sys/devices/system/cpu/cpu1/cache/index3/shared_cpu_map
    00000000,0000000f
    [root@YMOS_DEFAULT ~]# cat /sys/devices/system/cpu/cpu2/cache/index3/shared_cpu_map
    00000000,0000000f
    [root@YMOS_DEFAULT ~]# cat /sys/devices/system/cpu/cpu3/cache/index3/shared_cpu_map
    00000000,0000000f
    [root@YMOS_DEFAULT ~]#

    通过上面的分析看,在NUMA架构中,使用numactl命令将应用程序绑定在一个Socket上的core上运行,可以提高内存的访问效率。如下:

    numactl -m 0 –physcpubind=2,3 ./test
    -m 0:在node 0上分配内存
    –physcpubind=2,3:在cpu 2和3上运行程序,即一个线程运行在cpu2上,另一个运行在cpu3上。

    参考:

    http://www.searchtb.com/2012/12/%E7%8E%A9%E8%BD%ACcpu-topology.html

    http://www.cnblogs.com/yubo/archive/2010/04/23/1718810.html

    http://www.cnblogs.com/yjf512/archive/2012/12/10/2811823.html

  • 相关阅读:
    个人作业-Alpha项目测试
    第三次作业-结对编程
    第二次作业
    第一次阅读作业
    canal同步mysql数据至es5.5.0
    工作一周年小结
    Java集合操作 遍历list并转map
    网易秋招校招编程题
    堆外内存总结
    网易秋招内推编程题题解
  • 原文地址:https://www.cnblogs.com/MerlinJ/p/4111326.html
Copyright © 2011-2022 走看看