使用golang写了一个统计日志到程序,最开始使用 nohup
来运行,一切正常,后来该换到使用 supervisor 来管理进程,运行一天后,日志出现大量的 too many open files
错误,开始排查…
首先排查系统文件描述符
$ cat /etc/security/limits.conf * soft nofile 655350 * hard nofile 655350
查看 日志进程 的limit
$cat /proc/<pid>/limits Limit Soft Limit Hard Limit Units Max cpu time unlimited unlimited seconds Max file size unlimited unlimited bytes Max data size unlimited unlimited bytes Max stack size 8388608 unlimited bytes Max core file size 0 unlimited bytes Max resident set unlimited unlimited bytes Max processes 127897 127897 processes Max open files 1024 2048 files Max locked memory 65536 65536 bytes Max address space unlimited unlimited bytes Max file locks unlimited unlimited locks Max pending signals 127897 127897 signals Max msgqueue size 819200 819200 bytes Max nice priority 0 0 Max realtime priority 0 0 Max realtime timeout unlimited unlimited us
发现系统设置的正常,但是到程序中就只有默认的 1024,开始排查 supervisor
$ cat /proc/$(ps aux|grep supervisor|grep -v grep |awk '{print $2}')/limits Limit Soft Limit Hard Limit Units Max cpu time unlimited unlimited seconds Max file size unlimited unlimited bytes Max data size unlimited unlimited bytes Max stack size 8388608 unlimited bytes Max core file size 0 unlimited bytes Max resident set unlimited unlimited bytes Max processes 127897 127897 processes Max open files 1024 2048 files Max locked memory 65536 65536 bytes Max address space unlimited unlimited bytes Max file locks unlimited unlimited locks Max pending signals 127897 127897 signals Max msgqueue size 819200 819200 bytes Max nice priority 0 0 Max realtime priority 0 0 Max realtime timeout unlimited unlimited us
发现 supervisor进程 也是 1024, 修改supervisor 配置 /etc/supervisord.conf
调整参数 minfds=655350
, 然后重启supervisor
一 单个进程打开文件句柄数过多
ulimit中的nofile表示单进程可以打开的最大文件句柄数,可以通过ulimit -a查看,子进程默认继承父进程的限制(注意,是继承,不是共享,子进程和父进程打开的文件句柄数是单独算的)。
网上还有一种解读是nofile表示单用户可以打开的文件句柄数,因为他们在limit.conf中看到类似于“openstack soft nofile 65536”,便认为是openstack用户最多可以打开的文件句柄数。该解读是错误的,“openstack soft nofile 65536”表示的含义是当你执行"su - openstack"切换到openstack用户后,你创建的所有进程最大可以打开的文件句柄数是65536。
要查看一个进程可以打开的文件句柄数,可以通过“cat /proc/<pid>/limits”查看。
要修改ulimit中的nofile,可以通过修改/etc/security/limits.conf文件,在其中加入类似“openstack soft nofile 65536”的语句来进行修改。修改完成后,可以通过“su - openstack”切换用户,或者重新登录,来使该配置生效。
要动态修改一个进程的限制,可以使用prlimit命令,具体用法为:“prlimit --pid ${pid} --nofile=102400:102400”。