简介: 浅谈专有云MQ存储空间的清理机制
在近⼀年的项⽬保障过程中,对专有云MQ产品的存储⽔位清理模式⼀直存疑,总想一探究竟但又苦于工作繁忙、精力有限,直到最近⼀次项⽬保障过程中再次出现了类似的问题,⼤家对MQ Broker的⽔位清理机制仍然⽐较模糊,于是便有了这篇⽂章。希望能通过这篇⽂章将MQ Broker的消息清理机制讲清楚。
⾸先,我们先来看⼀张MQ的消息保存时间和Broker磁盘存储空间的⽔位趋势图(该图来源于铜雀,⽬前已更名为SRE技术保障平台)。通过该趋势图,可以看到红线左侧的消息保存时间(上⽅蓝⾊趋势线)和Broker磁盘存储空间(下⽅绿⾊区域)呈现出规律性的波动。⽽红线右侧部分,随着消息量的快速增加(通过Broker磁盘存储空间快速上涨得出),开始⼀段时间消息保存时间还呈规律性波动,但接近最右侧时,可以看到消息保存时间的波动频率加快了,⽽且消息保存时间快速下降。那么MQ对消息的清理机制到底是什么呢?
图1:消息保存时间&磁盘空间占比趋势图
在介绍清理机制前,先来复习⼀下MQ的消息是如何进⾏存储的。
图2:commitlog
Producer发送的所有消息都存放在Broker节点的
/home/admin/store/commitlog ⽬录下(专有云场景),每个commitlog的⼤⼩固定为1G。随着时间的推移,当Broker接收的消息量越来越多时,就会在该⽬录下⽣成多个⼤⼩为1G的commitlog⽂件。
ps: 特别声明,虽然该⽬录叫commitlog,但⽬录中存储的⽂件并不是程序⽇志,⽽是MQ Broker⽤来存储消息的⽂件载体,在MQ产品中这种⽂件载体叫做commitlog。之所以这⾥做特别说明,是因为历史上出现过由于误认为此⽬录下存储的是程序⽇志,为了释放磁盘存储空间将⽬录下的commitlog删除导致MQ消息丢失的故障。这是⾎的教训!这个⽬录下的⽂件不要碰,不要碰,不要碰。
commitlog⽬录下的⽂件让MQ⾃行维护清理便可。那MQ⾃身是根据什么规则来进⾏清理的呢?先来看⼀下MQ⾥⾯⼏个⽐较关键的阈值:
MQ会在两个时机对commitlog进⾏清理,⼀是前文提到的每天凌晨4点;另⼀个是消息写⼊时。通过以下表格可以更加清楚的看出具体的清理策略。
我们回过头来再看⼀下这个趋势图。
图3:消息保存时间&磁盘空间占比趋势图
ps:实际在MQ的代码实现层⾯,为了保证消息写⼊Broker的性能,并不是每次写⼊消息时都进⾏存储
空间检查和commitlog清理,⽽是通过定时任务来执⾏(该定时任务每10s执⾏⼀次)。
上述介绍的⼏个清理阈值中,有些是可调的,有些是内置在代码中不可调的。⽐如“凌晨4点”,“72⼩时”,“75%”,这3个参数是⽤户可以调整的MQ配置,“85%”,“90%”是写死在代码中的,是⽆法调整的。
查看Broker配置信息的⽅式如下,在Broker的docker中执⾏
sh /home/admin/rmq/bin/mqadmin getBrokerConfig -b ${IP}:10911
在调整配置时,deleteWhen通常选在客户MQ业务的低峰期进⾏,尽量避免commitlog清理对⽣产业务的影响。当Broker存储⽔位出现快速上涨时,为避免存储⽔位达到90%,出现禁写影响⽣产业务的情况,需要同时调整fileReservedTime和diskMaxUsedSpaceRatio的默认设置,通过调整这两个参数共同作⽤保证Broker的存储空间可以及时得到清理(还有⼀种降⽔位的⽅式——关闭MQ消息轨迹)。当然这所有参数的调整都需要经过与产研的沟通与确认。
以上就是对MQ Broker消息清理机制的剖析,希望通过这篇⽂章能够让大家理解并掌握其清理机制,能够处理实际工作中遇到的MQ Broker存储⽔位快速上涨的问题。
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。
作者:刘维
原文链接
本文为阿里云原创内容,未经允许不得转载