谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

王林

发布时间：2024-01-11 22:36:04

692人浏览过

来源于51CTO.COM

转载

几乎是和斯坦福“炒虾洗碗”机器人同一时间，谷歌deepmind也发布了最新具身智能成果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

并且是三连发：

先是一个主打提高决策速度的新模型，让机器人的操作速度（相比原来的Robotics Transformer）提高了14%——快的同时，质量也没有下滑，准确度还上升了10.6%。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

然后再来一个专攻泛化能力的新框架，可以给机器人创建运动轨迹提示，让它面对41项从未见过的任务，取得了63%的成功率。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

别小看这个数组，对比之前的29%，进步可谓相当大。

最后是一个机器人数据收集系统，可以一次管理20个机器人，目前已从它们的活动中收集了77000次实验数据，它们将帮助谷歌更好地完成后续训练工作。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

那么，这三个成果具体是什么样？我们一个一个来看。

机器人日常化第一步：没见过的任务也能直接做

谷歌指出，要实现真正可进入现实世界的机器人，需要解决两个基本挑战。

1、新任务推广能力

2、提高决策速度

本次三连发的前两项成果就主要在这两大领域作出改进，且都建立在谷歌的基础机器人模型Robotics Transformer（简称RT）之上。

首先来看第一个：帮助机器人泛化的RT-Trajectory。

对于人类来说，譬如完成擦桌子这种任务简直再好理解不过了，但机器人却不是很懂。

不过好在我们可以通过多种可能的方式将这一指令传达给它，让它作出实际的物理行动。

一般来说，传统的方式就是将任务映射为一个个特定的动作，然后让机械臂完成，例如对于擦桌子，就可以拆解为“合上夹具、向左移动、向右移动”。

很明显，这种方式的泛化能力很差。

在此，谷歌新提出的RT-Trajectory通过给机器人提供视觉提示的方法来教它完成任务。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

具体而言，由RT-Trajectory控制的机器人在训练时会加入2D轨迹增强的数据。

这些轨迹以RGB图像的形式呈现，包括路线和关键点，在机器人学习执行任务时提供低级但非常实用的提示。

有了这个模型，机器人执行从未见过的任务的成功率直接提高了1倍之多（相比谷歌的基础机器人模型RT-2，从29%=>63%）。

更值得一提的是，RT-Trajectory可以用多种方式来创建轨迹，包括：
通过观看人类演示、接受手绘草图，以及通过VLM（视觉语言模型）来生成。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

机器人日常化第二步：决策速度一定要快

泛化能力上来以后，我们再来关注决策速度。

谷歌的RT模型采用的是Transformer架构，虽然Transformer功能强大，但严重依赖于有着二次复杂度的注意力模块。

因此，一旦RT模型的输入加倍（例如给机器人配上更高分辨率的传感器），处理起来所需的计算资源就会增加为原来的四倍，这将严重减慢决策速度。

为了提高机器人的速度，谷歌在基础模型Robotics Transformer上开发了SARA-RT。

SARA-RT使用一种新的模型微调方法让原来的RT模型变得更为高效。

这种方法被谷歌称之为“向上训练”，它主要的功能就是将原来的二次复杂度转换为线性复杂度，同时保持处理质量。

将SARA-RT应用于具有数十亿参数的RT-2模型时，后者可以在各种任务上实现更快的操作速度以及更高的准确率。

Vondy

下一代AI应用平台，汇集了一流的工具/应用程序

下载

同样值得一提的是，SARA-RT提供的是一种通用的加速Transformer的方法，且无需进行昂贵的预训练，因此可以很好地推广开来。

数据不够？自己创造

最后，为了帮助机器人更好地理解人类下达的任务，谷歌还从数据下手，直接搞了一个收集系统：AutoRT。

这个系统将大模型（包括LLM和VLM）与机器人控制模型（RT）相结合，不断地指挥机器人去执行现实世界中的各种任务，从而产生数据并收集。

具体流程如下：

让机器人“自由”接触环境，靠近目标。

然后通过摄像头以及VLM模型来描述眼前的场景，包括具体有哪些物品。

接着，LLM就通过这些信息来生成几项不同的任务。

注意了，生成以后机器人并不马上执行，而是利用LLM再过滤一下哪些任务可以独立搞定，哪些需要人类远程控制，以及哪些压根不能完成。

像不能完成的就是“打开薯片袋”这种，因为这需要两只机械臂（默认只有1只）。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

再然后，做完这个筛选任务以后，机器人就可以去实际执行了。

最后由AutoRT系统完成数据收集并进行多样性评估。

据介绍，AutoRT可一次同时协调多达20个机器人，在7个月的时间内，一共收集了包括6650个独特任务在内的77000次试验数据。

最后，对于此系统，谷歌还特别强调了安全性。

毕竟AutoRT的收集任务作用于现实世界，“安全护栏”不能少。

具体而言，基础安全守则由为机器人进行任务筛选的LLM提供，它的部分灵感来自艾萨克·阿西莫夫的机器人三定律——首先也是最重要的是“机器人不得伤害人类。

其次还包括要求机器人不得尝试涉及人类、动物、尖锐物体或电器的任务。

但这还远远不够。

因此AutoRT还配有常规机器人技术中的多层实用安全措施。

例如，机器人在其关节上的力超过给定阈值时自动停止、所有行动都可由保持在人类视线范围内的物理开关停止等等。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

还想进一步了解谷歌的这批最新成果？

好消息，除了RT-Trajectory只上线论文以外，其余都是代码和论文一并公布，欢迎大家进一步查阅～

One More Thing

说起谷歌机器人，就不得不提RT-2（本文的所有成果也都建立之上）。

这个模型由54位谷歌研究员耗时7个月打造，今年7月底问世。

嵌入了视觉-文本多模态大模型VLM的它，不仅能理解“人话”，还能对“人话”进行推理，执行一些并非一步就能到位的任务，例如从狮子、鲸鱼、恐龙这三个塑料玩具中准确捡起“已灭绝的动物”，非常惊艳。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

如今的它，在短短5个多月内便迎来了泛化能力和决策速度的迅速提升，不由地让我们感叹：不敢想象，机器人真正冲进千家万户，究竟会有多快？

workbuddy基础操作复习_workbuddy操作基础介绍【介绍】

如何快速筛选海量简历中的优质人才利用AI招聘助手实现自动化标签分层

Suno如何写歌词生成音乐_Suno歌曲生成方法说明【说明】

WorkBuddy不同版本有什么区别_WorkBuddy版本功能差异介绍

Adobe Podcast录音自动优化怎么使用_新手操作方法是什么【教程】

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

传感器故障解决方法

传感器故障排除指南：识别故障症状（如误读或错误代码）。检查电源和连接（确保连接牢固，无损坏）。校准传感器（遵循制造商说明）。诊断内部故障（目视检查、信号测试、环境影响评估）。更换传感器（选择相同规格，遵循安装说明）。验证修复（检查信号准确性，监测异常行为）。

498

2024.06.04

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

530

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板