DeepMind 发布超真实世界模型 Genie 3，AGI 向前一步

雪夜

发布时间：2025-08-18 12:00:18

583人浏览过

来源于php中文网

原创

就在昨晚，谷歌宣布推出通用型世界模型 genie 3。用户可通过文本提示生成动态世界，以每秒 24 帧的速度进行实时交互。更重要的是，genie 3 的生成内容可在 720p 分辨率下维持物理一致性“几分钟时间”，远超此前世界模型读秒级水平。

根据 DeepMind 的说法，Genie 3 是首个允许实时交互的世界模型。相较于该系列前作 Genie 2、游戏生成引擎 GameNGen 以及视频生成模型 Veo，Genie 3 在生成内容的连贯性上堪称质的飞跃，同时分辨率、交互性、延迟均在一流水平。

DeepMind 发布超真实世界模型 Genie 3，AGI 向前一步

Genie 3 在业内人士之间也广受好评。英伟达高级科学家的 Jim Fan 称其是 Genie 1 基础上的“量子飞跃”。DeepMind 前科学家 Tejas Kulkarni 专门为其撰写长评，不仅高度评价 Genie 3 在通用性、物理规律、视觉记忆等方面的表现，更是称之为“实现 AGI 之前的最后一块拼图”。但同时，也指出其在多主体互动和长指令跟随方面存在明显缺陷。

DeepMind 发布超真实世界模型 Genie 3，AGI 向前一步

目前研究团队正为 Genie 3 寻找更多测试者，其中一个被寄予厚望的应用场景是训练工具。不仅人类学生可以借助世界模型进行学习、积累经验，对于 Agent 来说，世界模型也意味着在多样化的交互环境中进行不断训练和性能评估成为可能。Agent 有望借此理解其行为如何影响环境的变化，并学着预测环境的演变。

“世界模型是通往通用人工智能（AGI）道路上的关键里程碑。”该团队表示。

连贯性质变：从秒级到分钟级

Genie 3 甫一发布便引起热议，甚至有用户 @el.cine 将其比作又一个 GPT 时刻。

DeepMind 发布超真实世界模型 Genie 3，AGI 向前一步

Genie 3 研发团队的 Matt McGill 分享了自己生成的视频，称自己让角色试着”低头看看鞋，看模型是否理解什么是水坑”。用户@Boston | Capx AI 在其评论区感叹：“谷歌街景。”

看到 Genie 3 的生成效果，用户@The Canaanite 提醒 DeepMind 看好自家工程师，“Zuck 已经在提着十亿年薪赶来的路上。”

DeepMind 发布超真实世界模型 Genie 3，AGI 向前一步

Genie 3 令人惊喜之处在于，其模拟真实世界时已不需要靠着高糊画面以假乱真，是依循真实物理规律的交互表现，和相对连贯的生成内容，让用户感到画面可信。

据DeepMind官方介绍，Genie 3 的功能具体包括：

模拟世界的物理属性：展现自然现象如水与光照，以及自然环境中的复杂交互；

模拟自然世界：从动物行为到错综复杂的植物生命，生成充满活力的生态系统；

建模动画和小说：激发想象力，创造奇幻场景和富有表现力的动画角色；

探索地点和历史背景：超越地理和时间的界限，探索不同的地方和过去的时代；

为了让 AI 生成的世界具有沉浸感，它们必须在长时间尺度上保持物理一致性。但基于自回归技术生成三维环境，通常比生成视频更具技术挑战性，因为误差往往会随着时间的推移而累积。

与传统的视频生成模型不同，Genie 3 通过在每一帧的自回归生成过程中，将此前的生成轨迹同步纳入计算以解决这一挑战。例如用户在世界模型中走上了一分钟之前的回头路，模型也就必须参考一分钟之前的相关信息。

用户每一次完成输入，这种计算便宣告开始，每秒钟进行多次。在用户和 Genie 3 的实时交互过程中，这一循环周而复始，由此三维场景的一致性从秒级提升至分钟级。

Genie 3 研发团队支持，通过 NeRF 和 Gaussian Splatting 等方法也能实现连贯的可交互 3D 环境，但它们依赖于用户提供明确的 3D 指示。而 Genie 3 的连贯性实质上是一种涌现能力，3D 环境基于世界描述和用户操作被逐帧创建，从而更具动态、富于变化。

Genie 3 还提供了一种新的基于文本的交互形式。除了前进后退，用户还能在其生成的三维场景中“呼风唤雨”。在 DeepMind 官方文档中，这被称为“可提示世界事件”。

Imagine By Magic Studio

AI图片生成器，用文字制作图片

下载

这类事件意在改变已生成的世界，如修改天气状况，或引入新的物体和角色，从而增强从导航控制中获得的体验。

DeepMind 发布超真实世界模型 Genie 3，AGI 向前一步

对于Agent而言，这种交互形式意味着其在与环境的交互过程中可以设想更多“如果……会怎样”的场景。这些场景将成为 Agent 提供学习如何应对意外情况的经验。

具身 AGI 向前一步

热度之下，Genie 3 的局限性也同样突出：

行动空间有限：尽管可提示的世界事件允许进行广泛的环境干预，但这些干预不一定由Agent自身执行。Agent能够直接执行的行动范围目前受到限制；

与其他智能体的交互与模拟：在共享环境中准确建模多个独立智能体之间的复杂交互，仍然是一个持续的研究挑战；

精确呈现真实世界位置：Genie 3 目前无法以完美的地理精度模拟真实世界位置；

文本渲染：通常只有在输入的世界描述中提供时，才能生成清晰易读的文本；

交互时间有限：Genie 3目前仅支持几分钟的连续交互，而不是数小时；

然而毋庸置疑的是，世界模型刚刚向我们的世界迈出了一大步。

用户 @Bilawal Sidhu 用同一个场景对比了 Genie 2 和 Genie 3 的表现。短短七个月时间，已然天差地别。

此前的世界模型，大多难以兼顾实时交互效果和物理一致性。根据用户提示渲染出的世界，可能在任何一帧分崩离析。而 Genie 3 发布后，研发团队的 @Jack Parker-Holder 则表示我们已经站在了世界模型的分水岭上，用户可以生成任何其想象中的世界，并进行多分钟的实时交互模拟。更为长远的意义在于，“这或许就是具身 AGI 的关键缺失部分。”

DeepMind 发布超真实世界模型 Genie 3，AGI 向前一步

在 DeepMind 官方文件中，有一个特别的 Genie 3 用例。研究团队将专门应用于 3D 虚拟环境的通用 Agent “SIMA” 置于 Genie 3 生成的虚拟世界中，并为其设定了一组目标。

DeepMind 发布超真实世界模型 Genie 3，AGI 向前一步

虽然与此前的世界模型一样，Genie 3 并不了解 SIMA 的目标，而是根据其动作模拟未来。但在 Genie 3 生成的虚拟世界中，更稳定的物理一致性使 SIMA 可以执行更长的动作序列、实现更复杂的目标，这一突破对于迈向通用人工智能有着至关重要的作用。

在不久前刚刚结束的 WAIC 上，Rich Sutton 曾形容 AI 是“创造事物的事物”。GPT-4 发布不到三年，我们可以借助 AI 创造的对象就从文本、代码跃升到了无限瑰丽的想象世界。

回到 Genie 3 发布时，DeepMind 提出的问题：如果你不仅可以观看生成的视频，还可以探索它，将会怎样？

DeepMind 发布超真实世界模型 Genie 3，AGI 向前一步

在那个世界里，我们可上九天揽月，也可以化身自己的小狗，在海边漫步。

欧盟要求谷歌向竞争对手 AI 开放 Android 权限

谷歌 Gemini 3 Flash 新增“Agentic Vision”功能：将视觉推理与代码执行相结合

谷歌“Aluminum OS”界面首次曝光：专门针对大屏优化、系统级整合 Gemini

谷歌投资日本 AI 初创企业 Sakana AI，并达成战略合作

OpenAI 已敲定广告商名单，并在广告上线前公布关键细节

相关专题

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

169

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板