最近,有部分越南的服务器内存不断上涨,怀疑是内存泄漏,因为框架提供的内存报告里,C内存和Lua占用内存都不大,和ps里看的差好多。总内存在12G左右,C和Lua的加起来约4G,两者相差了8G
经过一番排查,排除了混用glibc malloc和jemalloc的可能。于是写了一个多线程的测试程序,由多个生产者-消费者线程对组成。生产者分配一个随机大小的内存(在SIZE范围内),然后memset将内存遍历一次,再将指针通过管道发给消费者。消费者拿到指针后,读一下指针的值,然后释放指针对应内存块。这个模型模拟了skynet的一个线程分配内存(消息),发给另一个线程消费(释放)的情况。在没有设置jemalloc的参数的情况下,这个例程的内存会逐渐涨到一个峰值,然后不再增大,但也不再减少。如果设定了例程里的ABORT_COUNT,过了指定次数后不再进行内存分配,内存过几个小时也不会下降,这跟线上的情况类似
通过MALLOC_CONF环境变量,设置了dirty_decay_ms:0,muzzy_decay_ms:0以后,内存的峰值变低了,观察top命令的RES内存,明显低了不少。将选项换成了background_thread:true,则例程即使不再分配内存,内存占用也会逐渐降低了。dirty_decay_ms表示内存块从dirty状态移动到muzzy状态的时间,muzzy_decay_ms是muzzy状态到释放给系统的时间。设为0以后行为会不一样,比如我两个参数都设置10000ms,并不是20秒后就会还给系统。。
往后打算设置一下background_thread:true,让内存不再使用时慢慢还给系统,避免OOM Killer找上门来杀进程