腾讯混元世界模型1.5(tencent hy worldplay)现已正式上线,官方公告内容如下:
它上手极简: 仅需一段文字描述或一张图片,即可快速生成个性化的可交互虚拟世界。 它支持沉浸式实时操控: 键盘、鼠标或游戏手柄均可作为输入设备,实时调整虚拟相机的位置与朝向,带来如游玩3A大作般的自由探索体验。 它开箱即用: 访问腾讯混元3D官网即可申请试用(https://www.php.cn/link/fc841e513da905da7664e80c91f54339)。 它全面开源: 混元世界模型1.5(WorldPlay)首次对外公开了业内最完整、最系统的实时世界模型技术栈,覆盖数据构建、模型训练、流式推理与部署等全生命周期环节,并创新性地引入“记忆重构机制”、“长上下文蒸馏策略”以及“面向3D空间的自回归扩散模型强化学习框架”等核心算法模块。

混元世界模型1.5具备以下三大关键能力:
在技术实现层面,混元世界模型1.5首次开源了业界最完备的实时世界模型训练体系,贯穿数据采集、模型预训练、持续优化、推理部署全流程。技术报告中详细披露了预训练策略、增量训练范式、自回归视频模型的强化学习微调、带记忆能力的模型蒸馏等关键技术路径,并深入阐述了其在控制空间建模(control space)、记忆重构(reconstituted memory)、上下文强制蒸馏(context forcing)及强化学习后训练四大核心模块的设计理念与原创方案。

混元世界模型1.5的核心架构为名为WorldPlay的自回归扩散模型,采用Next-Frames-Prediction视觉自回归任务进行端到端训练,成功实现了兼具实时响应与长程几何一致性的交互式世界建模,突破了行业长期面临的“实时性”与“空间一致性”难以兼得的技术瓶颈。
该模型融合三项关键技术突破:双通路动作表征实现毫秒级精准控制、上下文记忆重构机制保障长时间尺度下的三维结构稳定性、上下文对齐蒸馏技术显著提升长视频生成的视觉质量与几何精度。此外,项目还构建了一套基于3D感知奖励函数的强化学习后训练框架,进一步优化生成结果的空间合理性与观感表现力。
在数据支撑方面,混元团队自主研发了全自动3D场景渲染流水线,可高效产出海量高保真真实世界渲染样本,为模型核心能力提供坚实基础。混元世界模型1.5目前已实现24帧/秒的长时流式生成能力,其一致性表现与跨场景泛化能力均达到实用级水准。
在线体验入口:https://www.php.cn/link/fc841e513da905da7664e80c91f54339
GitHub 仓库:https://www.php.cn/link/c16a2e5d3f5c70f954488189c3b3fa44
Hugging Face 模型页:https://www.php.cn/link/bf3db48ad49a6cbe21fa3ec8b97c8b83
项目主页:https://www.php.cn/link/a1e7fb77550451d64aed45250cdcb04b
源码下载地址:点击下载
以上就是腾讯混元世界模型1.5发布,首次开源业界最系统、最全面的实时世界模型框架的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号