1.python内存泄漏
今天在看服务器上的进程时,用top查的时候,发现一个一直跑的脚本程序内存竟然达到了1.6G,这个脚本我有印象,一开始仅占用20M左右,显然是内存泄漏了。
用gc和objgraph,主要是objgraph,查看都是那些对象在增长,发现是dict/tuple这些内置类型的对象在增长,这个比较麻烦,因为可能程序里面用到这种类型的比较多,但我们的代码简单,所以一下在就知道问题在哪儿了,再次注释以下。
2. python flask莫名core dump
日志中有如下日志:
error: cannot switch to a different thread
(libev) error creating signal/async pipe: Too many open files
发现当前文件打开限制比较低,修改为65535
发现没用,猜想肯定还是会报错,猜想是因为打开的文件描述符不断增加导致的问题,所以用losf查看进程打开的文件,发现其中eventpoll这个文件描述符一直再增长,确定了这个原因导致的就要找到为什么了
深挖原因,发现如果没有请求过去的话是不会增长描述符的,因此我需要确定在访问的时候进程都做了啥(一开始没有想到的,只是一直顺着接口部分找原因,睡了一觉重新整理思路才开始找)。发现有问题的地方:
问题模块访问时多了俩个fcntl调用(用strace -p查看):
查看圈中的部分,发现不知为何将这个socket更改为了非阻塞的了,我想这才是导致这个问题的主要原因了。
继续查是什么引起的:
由于在flask中使用了grequests库,导致底层的socket行为变为非阻塞的了然后我在测试环境使用的是flask自带的werkzeug server,里面的实现可能不完善,导致文件描述符泄漏。如果我使用uwsgi之类的server,不会出现泄漏。