0

0

Kimi 开源又放大招!20 秒更新万亿参数的中间件来了

心靈之曲

心靈之曲

发布时间:2025-09-16 08:19:22

|

263人浏览过

|

来源于php中文网

原创

kimi 再次引爆技术圈,开源项目再出王炸!

这次,一个名为 checkpoint-engine 的中间件,让 Kimi K2 的万亿级模型参数迈入“秒级更新”新时代。

Kimi 开源又放大招!20 秒更新万亿参数的中间件来了

它不仅能将更新后的权重从单一节点瞬间同步至全部节点,还支持灵活的点对点动态参数刷新。

网友们直呼大开眼界,惊叹声不断。

Kimi 开源又放大招!20 秒更新万亿参数的中间件来了

接下来,我们就来深入解析这个关键中间件背后的黑科技。

该组件名为 checkpoint-engine(检查点引擎),核心用途是强化学习流程中的关键环节——在大模型推理过程中高效更新模型权重。

借助这一利器,Kimi-K2 仅需约 20 秒,即可完成在数千张 GPU 上对万亿参数的全面刷新。

Kimi 开源又放大招!20 秒更新万亿参数的中间件来了

与前代 Kimi-k1.5 类似,K2 在同步强化学习训练中采用混合共置架构:训练引擎与推理引擎部署在同一组计算节点上。

当其中一个引擎运行时,另一个会主动释放 GPU 资源,实现资源动态调配。

每轮强化学习迭代中,中央控制器首先调用推理引擎生成新一批数据,随后切换至训练引擎进行学习,并将更新后的参数传回推理引擎,用于下一轮推理。

因此,两个引擎均针对高吞吐性能进行了深度优化。

但随着模型规模跃升至 K2 级别,引擎切换和故障恢复带来的延迟问题愈发突出。

于是,研究团队开始思考:如何更高效地完成参数更新?

在 rollout 阶段,训练引擎的参数会被卸载到 DRAM 中,因此重启训练只需一次 H2D(主机到设备)数据传输即可完成。

然而,推理引擎的启动则复杂得多——它需要从训练引擎获取最新参数,而两者的参数分片策略并不一致。

考虑到 K2 模型的巨大体量和庞大的硬件集群规模,若通过传统网络文件系统重新切分并广播参数,所需带宽高达每秒数 PB,系统开销难以承受。

正是在此背景下,检查点引擎横空出世。

Kimi 开源又放大招!20 秒更新万亿参数的中间件来了

团队选择在训练节点上部署分布式检查点引擎,统一管理参数状态。

参数更新时,每个检查点工作节点先从训练引擎获取本地参数副本,然后将完整参数集广播至所有检查点节点。

推理引擎只需从中拉取自身所需的分片即可完成加载。

为支撑万亿参数级别的更新效率,团队采用了逐分片流水线更新机制,最大限度降低内存占用

理论上可行的三阶段流水线如下:

  • H2D 阶段:异步将某一分片权重复制到 H2D 缓冲区;
  • 广播阶段:复制完成后,将其送入 IPC 缓冲区并向所有 GPU 广播;
  • 重载阶段:推理引擎同时从另一 IPC 缓冲区加载参数。

Kimi 开源又放大招!20 秒更新万亿参数的中间件来了

不过,目前这一理想化的三阶段方案尚未落地。K2 实际采用的是更为简洁的两阶段设计:

所有设备先同步执行一次 H2D 传输;

聚蜂消防BeesFPD
聚蜂消防BeesFPD

关注消防领域的智慧云平台

下载

随后,广播与重载操作并行展开。

Kimi 开源又放大招!20 秒更新万亿参数的中间件来了

团队决定将完整参数集直接广播至整个集群,而不考虑各推理节点的具体分片方式。

虽然这会导致传输总量略高于理论最优值,但却极大简化了系统架构,减少了对训练与推理引擎的侵入性。

研究人员认为,这种微小的带宽代价换来的是训练与推理模块的完全解耦,显著降低了维护与测试难度。

此外,对于 Kimi K2 这类超大规模模型而言,启动速度同样至关重要。

在启动训练引擎时,每个节点可以选择性地读取部分或不读磁盘参数,再通过节点间通信补全缺失部分。

这种方式确保整个集群只需整体读取一次检查点,有效规避了高昂的磁盘 IO 成本。

同时,由于推理引擎为独立副本,团队希望避免在其间引入额外同步屏障。

因此,在初始化阶段复用了检查点引擎的能力:

由检查点引擎统一从磁盘读取检查点数据(类似训练引擎启动过程),然后用于初始化尚未启动的推理实例。

值得一提的是,得益于专用检查点引擎的设计,系统具备更强的容错能力——任一推理副本可独立重启,无需与其他副本协调,彻底摆脱单点故障风险。

由此可见,这个看似低调的中间件,实则在 Kimi K2 的整体架构中扮演着举足轻重的角色。

参考链接:

[ 1 ] https://www.php.cn/link/53afd7ab97449cdbb682b6b7e335c524

[ 2 ] https://www.php.cn/link/7921d90348e08272240aeed482095bae

[ 3 ] https://www.php.cn/link/ac358cbed52f811a87ccf33be3e5b5bb

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 完 —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

404

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

250

2023.10.07

什么是中间件
什么是中间件

中间件是一种软件组件,充当不兼容组件之间的桥梁,提供额外服务,例如集成异构系统、提供常用服务、提高应用程序性能,以及简化应用程序开发。想了解更多中间件的相关内容,可以阅读本专题下面的文章。

182

2024.05.11

Golang 中间件开发与微服务架构
Golang 中间件开发与微服务架构

本专题系统讲解 Golang 在微服务架构中的中间件开发,包括日志处理、限流与熔断、认证与授权、服务监控、API 网关设计等常见中间件功能的实现。通过实战项目,帮助开发者理解如何使用 Go 编写高效、可扩展的中间件组件,并在微服务环境中进行灵活部署与管理。

226

2025.12.18

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

3906

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2891

2024.08.16

系统架构有哪些种类
系统架构有哪些种类

系统架构种类有单库单应用架构、内容分发架构、读写分离架构、微服务架构、多级缓存架构、分库分表架构等。想了解更多系统架构的相关内容,可以阅读本专题下面的文章。

206

2023.11.14

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

8

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

62

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号