作者:吴聪
OOM是Linux中一个比较常见的情况,PostgreSQL数据库触发OOM现象就是数据库进程被KILL了。OOM发生的原因有很多,这里我们从OOM的产生以及如何在PostgreSQL中预防OOM发生来进行研究。
OOM(out-of-memory),顾名思义就是内存溢出了,之所以会出现这种情况和内存分配的overcommit有关。
Linux为了保证在有限的内存中尽可能多的运行更多的进程,在内存分配策略中提出了overcommit的策略,即允许内存溢出。之所以可以这么做是因为我们进程在申请内存时并不会立刻分配内存页,而是到使用时才进行分配。所以Linux才允许进程overcommit,因为即使申请了这么多实际可能也用不到,所以便允许进程申请了。
那么这么做有什么好处呢?对于一些内存敏感的应用来说,随时可能发生新的内存分配,而LINUX中有大量并发的进程,临时使用内存的总量变化很大。很多内存分配需求是临时性的,那么如果不凑巧,有时候要分配内存的时候,物理内存已经分配完了,虽然几毫秒后很可能就有一些内存可以归还,另外还有一些进程分配了内存后没有马上使用,但是如果不能内存超分配,这时候内存分配就会失败。而如果能够支持内存超分配,那么就可以利用这个时间差,有效的解决这个内存短期不足的问题。
但是这么做便会导致内存不足的情况,当出现这种情况时,有两种选择,一种是直接panic系统,然后几秒钟后LINUX自动重启,这个行为可以通过kernel.panic_on_oom参数设置,不过我们一般不采用这种模式。另一种就是我们要说的OOM了,挑出某个进程kill掉来释放内存。
我们可以通过内核参数 vm.overcommit_memory 设置是否使用memory overcommit。
OOM kill的流程导致如下:
除此之外,为了防止某些情况进程被误kill,将会进行以下检查:
函数 select_bad_process() 负责选择要杀死的进程。它通过逐步执行每个正在运行的任务并计算它是否适合使用函数 badness() 进行终止来决定。 Badness 计算如下:
badness_for_task = total_vm_for_task / (sqrt(cpu_time_in_seconds) * sqrt(sqrt(cpu_time_in_minutes)))
上面这个公式简单来说就是倾向于kill占用内存大执行时间短的进程。
我们可以通过设置进程的oom_score来降低被oom kill的优先级。
oom_score在新版本的Linux内核中计算起来十分简单,就是这个进程占用的(物理内存+SWAP)的总和乘以10,也就是说某个进程的最大oom_score=1000,最小oom_score=0。oom killer总是根据这个值从高到低排序来查找可以杀死的进程,这样确保杀死进程后,可以释放最多的内存。
如果我们把某个进程的oom_score_adj设置为-1000(早期版本的linux oom_score的计算方法不同,因此调整adj的方法略有不同),那么这个进程的oom_score就会永远为0,也就是说这个进程永远不会被oom killer杀死。这也是我们保护某个进程,不让oom killer杀掉的主要方法。
如前面所述,主要设置以下两点:
vm.overcommit_memory设置为2:
sysctl -w vm.overcommit_memory=2
修改postgres进程的oom_score:
echo -1000 > /proc/self/oom_score_adj
数据库中可以进行以下调整来降低OOM发生的可能:
诸如此类的还有很多,总的来说就是降低数据库进程的内存使用。
参考链接
https://github.com/digoal/blog/blob/master/202104/20210415_04.md
https://www.kernel.org/doc/gorman/html/understand/understand016.html