主从切换后内存飙升,大概率是输出缓冲区被撑爆,应优先检查INFO clients中的client_longest_output_list字段,若超50000则立即用client list定位omem异常连接,重点排查MONITOR命令或从库同步积压问题。

主从切换后内存飙升,先查 client_longest_output_list
Redis 主库刚完成 failover,内存立刻翻倍甚至触发 OOM,大概率不是数据量真变多了,而是输出缓冲区(output buffer)被撑爆了。核心线索就藏在 INFO clients 的 client_longest_output_list 字段里——它一旦超过几万,基本可以锁定是某个客户端在疯狂收消息,没来得及消费。
- 执行
redis-cli -h <host> -p <port> info clients | grep client_longest_output_list</port></host>,如果值 >50000,立刻警觉 -
client_longest_output_list高 ≠ 请求多,而是某个连接的响应积压严重,比如MONITOR、订阅了高频频道但消费者卡住、或从库拉取 RDB 时网络抖动 - 别急着 kill 连接,先用
client list定位具体连接:redis-cli client list | grep -E "oll|omem" | awk '$NF > 1000000 {print}'(筛出omem超 1MB 的)
从库全量复制期间,repl-backlog-size 和 client-output-buffer-limit slave 必须配对调
多个从库同时发起全量同步(如集群批量重启、网络分区恢复),主库要同时发 N 份 RDB + 持续推送增量命令,输出缓冲区瞬间吃紧。这时光调大 repl-backlog-size 没用,因为 backlog 只管增量命令缓存,而全量复制走的是另一套缓冲机制。
-
client-output-buffer-limit slave才是控制从库连接缓冲区上限的关键配置,格式为:client-output-buffer-limit slave 256mb 64mb 60(硬限256MB / 软限64MB / 超软限60秒后断连) - 若从库带宽低或数量多,建议把软限(第二个值)设高些,避免频繁断连重试;但硬限(第一个值)不能无限制,否则主库内存直接被打穿
-
repl-backlog-size建议至少为峰值写入量 × 10 秒,例如 QPS 5k、平均命令大小 1KB,则 backlog 至少设为50mb,否则从库断连后无法部分同步,只能再次全量
MONITOR 是最隐蔽的内存杀手,上线前必须禁用
开发或运维临时执行 MONITOR 查问题,但忘了关——它会让 Redis 把每条命令原样塞进该连接的输出缓冲区。QPS 1w 的实例,1 秒就能攒下上百万条日志,omem 直接飙到 GB 级,且完全不计入 used_memory 统计(只算在 used_memory_human 里),监控容易漏看。
- 上线前检查所有 Redis 实例是否允许
MONITOR:redis-cli config get "rename-command MONITOR",返回""表示未重命名,风险极高 - 生产环境应强制重命名:
rename-command MONITOR ""或rename-command MONITOR "monitor_disabled",重启生效 - 真要抓命令流,改用
redis-cli --rdb抓快照,或用redis-cli --latency定位慢命令,别碰MONITOR
从库连接数暴增时,maxclients 不是唯一瓶颈
以为调大 maxclients 就能扛住从库接入?错。每个从库连接除了占用 fd,还会预分配大量输出缓冲区内存(尤其开启 repl-diskless-sync yes 时)。当几十个从库同时连上来,主库可能还没达到 maxclients 上限,used_memory 就已突破 maxmemory。
- 用
INFO replication观察connected_slaves和master_repl_offset是否异常增长,再结合INFO clients的connected_clients判断是否突发接入 - 限制从库并发数:在中间件(如 Twemproxy、Codis)或应用层做连接池限流,比硬扛更可靠
- 确认
tcp-keepalive已启用(默认 0,建议设为 60),避免因 NAT 超时导致从库反复重连,制造“假并发”
真正棘手的不是参数怎么配,而是缓冲区暴涨往往不报错、不告警、不进 slowlog——它安静地把内存吃光,直到 OOM killer 动手。盯住 client_longest_output_list 和 omem,比调 maxmemory-policy 有用十倍。










