0

0

OpenCloudOS 内存多级卸载落地实践分享

絕刀狂花

絕刀狂花

发布时间:2025-07-19 09:24:01

|

370人浏览过

|

来源于php中文网

原创

近日,第四届中国云计算基础架构开发者大会(china cloud computing infrastructure developer conference – 简称 cid),秉持着纯技术、非商业化的原则,以「自由、协作、创新」为核心理念,在深圳与技术开发者们见面。本次大会聚焦于业界最前沿的云计算基础架构技术成果,涵盖主论坛及三大技术主题分论坛,围绕基础架构技术领域的技术交流,展示先进技术在行业中的典型应用,赋能行业客户实现业务变革。

OpenCloudOS 内存多级卸载落地实践分享在主论坛上,OpenCloudOS 社区成员、腾讯资深内核研发专家——曾敬翔,以《云原生场景下内存多级卸载落地实践》为主题,分享了腾讯在实施内存多级卸载方案过程中遇到的实际问题、对应的解决方案,以及在容器平台上的落地数据。以下是分享的重点内容。

一、产业背景内存需求成本不断上升,提升内存利用率成为关键问题:

1. 数据中心硬件采购成本中,服务器占比最高,其中 CPU、GPU 和 DRAM 是主要成本项;

2. 随着数据量和业务复杂度的增加,内存需求激增,应用程序为了提高性能,通常采用内存密集型策略,长时间运行或大量服务并存时会面临巨大的内存压力,如内存颠簸、OOM 等。云计算对内存需求也在持续增长。

3. 业务中不活跃的冷内存占有很大比例,比例值根据业务不同会有波动,比如我们在集群中抓取的一些典型 workload 的冷热内存占比如下图。

OpenCloudOS 内存多级卸载落地实践分享绿色线表示总的内存使用量,蓝色线是匿名页的冷内存占比,橙色线是文件页冷内存占比。可以看出,冷内存占集群的比例较高。

在这样的背景下,内存多级卸载应运而生。如下图,使用内存多级卸载后,每个 workload 可以节省出很多空闲资源。对于这些空闲资源,我们在PHP中文网应用中主要有三种使用场景。

OpenCloudOS 内存多级卸载落地实践分享第一种,业务超卖场景:对 workload 开启多级卸载后,增加单个 pod(CVM)的流量,提高 TPS、QPS。

OpenCloudOS 内存多级卸载落地实践分享第二种,负载降配

●降低业务成本:对 workload 开启内存多级卸载后,降低 workload resources 的 memory request 和 limit,降低平台业务的上云成本。

●提高集群装箱率:多数集群节点的 CPU/MEM 比例为 1:2,但现网上很多是大内存 workload(1:4,1:8),影响集群装箱率,将大内存 workload 降配后(1:8 -> 1:4),可以提高集群装箱率。

OpenCloudOS 内存多级卸载落地实践分享第三种,混部弹性内存超卖

提高内存混部率:把非内存敏感型 workload 开启内存多级卸载,节省出多余的空闲内存资源,可以调度更多的离线(低优先级)pod 上来,并且,在整机内存压力大又不能及时迁出的情况下,优先迁出、OOM 调离线(低优先级)pod。

OpenCloudOS 内存多级卸载落地实践分享二、整体解决方案在云原生场景中落地内存多级卸载时遇到的实际问题:

●回收路径难以确定:内存多级卸载的回收名单是 cgroup path list,但在云原生容器平台中,pod cgroup path 是一串哈希值,并且 pod 会在集群的 node 中间迁入迁出,实时调度,如何确定节点上哪些 pod 需要开启内存多级卸载,并且随着 pod 状态的改变,实时改变回收及更新名单?

●回收参数难以确定:在容器平台中,需要开启内存多级卸载的 workload 对内存回收的敏感程度是不一样的,如何判断 workload 类型,然后使用对应回收参数?

●主动回收也会导致一些问题:

(1)误回收“冷”文件页:主动回收额外的文件页面,由于当前 lru 精度比较单调,导致误回收一些将会访问的页面,导致 cache miss,造成读 IOPS 增加。

(2)过度压缩匿名页:在主备存储模型中,备份节点一直处于空闲状态,因为 PSI 一直表征空闲情况,内存多级卸载不断将其匿名页面压缩到 zram,突然的主备切换,导致备节点突增大量请求,所有在 zram 的页面基本都需要解压,造成颠簸的延迟反应。

●zram 的页面无法统计,这也是社区面临的问题:目前 workload 的 resources.limits.memory 是对 cgroup 的 memory.usage_in_bytes 做限制,但是压缩在 zram 的匿名页面无法被限制,会造成计数器泄露的问题,pod 可能无限制的利用 node 上的 zram 资源,而 k8s 感知不到。

●无法隔离非内存多级卸载 pod 的换出行为:当对 node 节点开启 zram 的时候,虽然不对非内存多级卸载 pod 做主动回收,但在非内存多级卸载 pod 容器内存紧缺的情况下、或者整机内存紧缺的情况下,依然有可能把非内存多级卸载 pod 的匿名页面压缩到 zram 中,改变客户原本的预期行为。

01

整体架构

针对以上问题,我们提出了一个整体解决方案,分为5个模块及各自功能。

OpenCloudOS 内存多级卸载落地实践分享● wujing-umrd daemonset:

○qos-agent container:在 node 上,找到哪些 pod 打开了多级卸载,并且把 pod cgroup 和回收参数发送到 umrd ds。

○umrd container:umrd 根据 qos-agent 传递过来的回收列表进行主动回收,并且根据回收参数、PSI、refault、cpu util 计算回收文件页、匿名页的数量。

● mglru 增强模块:

○拆分接口:文件页面、匿名页面独立扫描、回收。

○Workingset Evaluation:评估有效文件页回写数量。

○new workingset refault feature:优化 mglru workingset。

● swap 隔离模块:system disable、cgroup disable,可以隔离来自节点内存紧缺和容器内存紧缺对非开启内存多级卸载的 pod 换出行为。

● zram 增强模块:per-cgroup zram priority、per-cgroup zram counter(raw、limit、usage)每个 cgroup 可以独立设置 zram 压缩等级,对于 per-cgroup 也做到了每个 cgroup 都能独立计算出压缩前和压缩后的量,以及现在 cgroup zram 的用量。

● 现网集群中部署热度探测模块:可以做匿名段热度探测,pod 中总内存的容器总匿名页、文件页面热度探测,计算各自占比,我们根据占比评估出 workload 哪个集群适合开启多级卸载。

02

子模块介绍

wujing-umrd ds

我们在集群中部署 wujing-umrd ds,集群中每个 node 都会被调度上一个 wujing-umrd pod,其中,wujing-umrd ds 包含一个 qos-agent container 和 umrd container。

● qos-agent container:当 node 上 pod 状态发生变化的时候,根据 pod yaml 打的 QOS 标签,对 pod 开启多级卸载,并且启用 QOS 标签对应的压缩等级和回收参数。

● umrd container:接受 qos-agent container 传递的回收路径和回收参数,并且根据 PSI、refault 负反馈决定当前回收的页面数量,将这些页面数量下给内核。

Yodayo
Yodayo

一个专为动漫迷和vTuber打造的AI艺术创作平台、交流社区

下载

OpenCloudOS 内存多级卸载落地实践分享mglru 增强

在内核中,我们更换了 LRU 算法。原本是两级 mglru,我们 backpod 上游多级

OpenCloudOS 内存多级卸载落地实践分享● 精度提升:传统 LRU 仅使用两个 lru list(Active/Inactive)来区分页面热度。而 MGLRU 中将 LRU 分成了四个世代(Gen),每个世代中又分为 4 个层级(Tier)。表征页面精度的提升,意味着误回收“冷”页的可能性下降。

● mglru 拆分接口:

○将 mglru 文件页、匿名页的扫描和回收过程隔离,并且给出统一的用户接口。

○使用方式,例如:

对于访问频繁的匿名页面,可以 10s 扫描一次,5s 回收一次。

对于慢盘并且访问少的文件页,可以 20s 扫描一次,2s 回收一次,实现有针对性的回收。

● Workingset Evaluation:

○可以获取一个 Cgroup 过去 1分钟/10分钟/30分钟 内平均 Refault 距离,以及预估有效文件页回写数量。

● workingset refault 重构与优化:

○对 Linux 内核中传统 LRU 长期使用的 Workingset Refault Distance 算法进行了重新优化设计,并成功将其与 MGLRU 中的 Refault PID 算法结合。

○改进后的算法可以辅助不同场景下进行更加有效的页面平衡,并能更加有效地防止 Thrashing。新算法在一些应用场景中有着非常显著的性能提升(5% - 400%)。即使是在传统 LRU 场景下,新算法也有可见性能提升(1 - 5%)。部分改进已发至上游。

swap 隔离

在集群原本没有开启 swap,在使用多级卸载后,将会把集群的 swap 打开,对于非多级卸载 pod,在整机、容器内存紧缺的情况下,会将匿名页面换出到 swap 设备,这是业务非预期行为,得支持 swap 的隔离。

OpenCloudOS 内存多级卸载落地实践分享● 整机内存紧缺:在整机内存紧缺的情况下,内核内存子系统会从 root memcg 开始遍历 memcg,并且回收其 lruvec,由于可能会对非多级卸载的 pod 做回收。

● 容器内存紧缺:在容器内存紧缺的情况下,内核内存子系统会从当前 memcg 开始遍历 memcg,并且回收其 lruvec,如果当前 memcg 没有开启多级卸载,那么会导致业务的匿名页面换出到 swap 上。

接口与解决办法:

● 内核接口:vm.force_swappiness、memory.swappiness

● qos-agent:qos-agent 对开启多级卸载的集群,设置 vm.force_swappiness=1,强制在整机、容器内存紧缺的情况下,强制对 swappiness==0 的容器不回收匿名页面;并且,在 node 上 pod 状态发生变化的时候,对非多级卸载 pod 设置 swappiness=0,多级卸载 pod 设置 swappiness=60。

zram 增强

ZRAM Enhance 基于上游 Object Cgroup API 实现,每个 Cgroup 提供了:

OpenCloudOS 内存多级卸载落地实践分享● 独立更改 ZRAM 压缩级别:

/memory.zram.priority:每个 Cgroup 可以选择压缩等级 1 - 4,默认分别对应算法 lz4,lzo-rle,lz4hc,zstd,压缩率由高到低,性能损失由小增大,进而对不同敏感程度的 pod 用不同的压缩等级。

● 独立统计 ZRAM 压缩数据:

/memory.zram.raw_in_bytes:以 Byte 为单位的换出到 zram 压缩前的数据大小/memory.zram.usage_in_bytes:以 Byte 为单位的换出到 zram 压缩后的总数据大小

● 限制 ZRAM 压缩量

/memory.zram.limit_in_bytes:以 Byte 为单位,限制本 memcg 换出到 zram 的总数据大小,超出这个限制后,匿名页面将无法换出到 zram 设备。

同时,zram 压缩后的数据大小会计算到 memory.usage_in_bytes 上,方便 k8s 感知和限制。

三、在腾讯的落地效果目前内存多级卸载在腾讯在线容器平台、离线容器平台、混部容器平台都已成熟应用,覆盖业务包括:键值存储、文件存储、聊天图片存储、聊天消息存储、AI 平台、游戏 AI 训练、转码、数据库等。主要收益场景:超卖、降配、混部。

超卖场景

内存节省:提升单机的内存售卖率,降低内存存储的成本。相同数据量情况下,开启多级卸载,内存用量降低 35%。

延迟情况:请求延时基本没有波动。

OpenCloudOS 内存多级卸载落地实践分享开启多级卸载后内存量的变化

OpenCloudOS 内存多级卸载落地实践分享benchmark 的请求延迟没有波动

降配场景

内存节省:对 workload 开启多级内存卸载,稳定降低内存用量后,降低 workload 的配置,节省业务上云成本。

性能:降低业务 workload 86% 的 OOM 数量。

OpenCloudOS 内存多级卸载落地实践分享OpenCloudOS 内存多级卸载落地实践分享混部场景

内存节省:在混部集群中,节点内存接近打满,但 CPU 利用率还有空闲,此时内存资源成为混部瓶颈。对非内存敏感型 workload 开启多级卸载后,节省出额外的内存资源,调度更多的离线 pod。

性能:无影响(出现影响优先 kill 离线 pod)。

OpenCloudOS 内存多级卸载落地实践分享OpenCloudOS 内存多级卸载落地实践分享OpenCloudOS 内存多级卸载落地实践分享

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1926

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

656

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2399

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

47

2026.01.19

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

497

2023.08.14

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

386

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2111

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

357

2023.08.31

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.6万人学习

Git 教程
Git 教程

共21课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号