作者:East FPGA那点事儿
上一章讲述了PCIe总线DMA的原理和XAPP1052存在的问题。
本章以服务器常用的4通道1000M以太网卡为例讲述如何提高DMA的效率。
1.内存重分配
Windows操作系统会划分一部分硬盘空间作为虚拟内存,将长时间不用得应用程序或内存交换到硬盘中,而释放出一部分内存空间供其他应用程序使用,提高计算机的性能。
或者操作系统会定进行内存碎片整理,将应用程序中零散的内存收集起来重新分配,减少内存碎片。
但是如果被交换或整理的是DMA使用的内存就麻烦了。操作系统已经为该内存重新分配了物理地址,而原内存分配给了其他应用程序,此时DMA再使用该内存,必然导致死机蓝屏现象。XAPP1052就没有很好的解决该问题,在程序中设置禁止将该内存交换到硬盘或整理。
2.内存大小
XAPP1052中申请到的物理连续内存大小为4KB。因为DDR内存内部是以块为单位,最小块为4KB,所以在操作系统中比较容易申请到4KB的物理连续内存。
4KB这个大小太小了。以太网数据小包为64B,大包为1512B,假如连续收到3个大包,那么应该怎样利用4KB的内存呢?
一种方式是一片4KB内存只存放2包数据,剩余内存浪费,第二片4KB内存存放第三包数据;另一种方式是将第三包数据拆分,前一半数据存放在第一片内存,后一半数据存放在第二片内存。
第一种方式将浪费976B,内存利用率非常低;而第二种方式对内存管理和数据处理带来了更高的要求,可靠性肯定降低了。
如果能申请到更大的物理连续内存,比如4MB,那么采用第一种方式浪费的字节数就可以接受。有没有办法申请更大的物理连续内存呢?就留给读者自己去查阅资料了。
3.申请内存
操作系统中有内存管理单元,应用程序申请的内存片是逻辑连续,但不一定物理连续。对于上层软件来说由操作系统屏蔽了硬件特性,看不到任何区别;但是DMA使用必须物理连续。随着计算机运行时间增加,操作系统中的内存碎片也会增加,或其他应用程序占用了内存,导致最后连4KB的物理连续内存都很难申请到。
所以建议:
由驱动程序申请内存,不要在应用程序中申请。
开始工作时就申请足够的内存。
该内存必须妥善管理。
该内存只作为中间转存,数据应拷贝到应用程序的内存中再使用。
4.内存管理
XAPP1052中一次DMA操作完成会产生一个中断。下面简单计算一下:当网络数据量较大时,例如达到4MB/s,那么4KB的内存块完全填满需要:
4KB/40MB/s=100us
中断的频率远远高于任务调度的周期(10ms),这将导致驱动程序不停的处理中断,CPU使用率非常高,而DMA性能非常低。
即使使用大内存,例如4MB,但是4路1000M网最大流量为500MB/s也是相同的情况。
我们提出的解决方案如下:
驱动程序申请大量内存片,一开始在内存池1中进行管理。程序开始运行时,将部分内存片指针写入FIFO1中;FPGA从FIFO1中取得内存地址,并开始向该地址写入数据,当该片内存写满后,将该内存地址写入FIFO2,并从FIFO1中取出下一个地址。驱动程序可定期或以FIFO2半满中断等形式,从FIFO2中读回内存指针放入内存池2中。然后将数据可拷贝给应用程序,就可以“释放”这片内存,放入内存池1中。驱动程序检测到FIFO1中使用量较少时立即向FIFO1写入一批内存地址。达到内存循环使用的目的。而驱动程序只需要做内存的调度和管理。FPGA的处理上也没有特殊要求,而且对FPGA中数据缓存的要求也非常低,我们实际应用中只使用了16KB的数据缓存。
假如内存片大小为4MB,两个FIFO深度为32,在500MB/s的数据流量下,使用半满中断处理方式。中断频率为:
16*4MB/500MB/s=128ms
CPU不用频繁处理中断,自然可以将更多的CPU资源用于处理其他任务。而windows任务调度时间约10ms,远小于128ms,完全不用担心因为任务调度延迟导致FIFO溢出而丢包现象。
转载:http://xilinx.eetrend.com/blog/9832