0

0

机器人感知大升级!轻量化注入几何先验,成功率提升 31%

花韻仙語

花韻仙語

发布时间:2025-10-01 11:14:13

|

601人浏览过

|

来源于php中文网

原创

在机器人学习领域,让 ai 真正“看懂”三维世界始终是一个核心挑战。

现有的视觉语言动作(VLA)模型大多基于预训练的视觉语言模型(VLM),仅利用 2D 图像-文本对进行训练,缺乏对真实操作至关重要的 3D 空间感知能力。

虽然当前一些方法通过引入显式深度信息来增强模型,但这类方案通常依赖额外的深度传感器或复杂的深度估计网络,带来了部署复杂、成本高以及噪声干扰等实际问题。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

为解决这一难题,上海交通大学与剑桥大学联合提出了一种轻量化的 VLA 增强框架——Evo-0。该方法无需任何显式深度输入或外部硬件,而是通过隐式注入 3D 几何先验知识,显著提升模型的空间理解能力。

Evo-0 利用视觉几何基础模型 VGGT,从多视角 RGB 图像中提取深层的 3D 结构信息,并将其融合进原有的视觉语言模型中,从而实现对物体空间布局和几何关系的精准建模。

在 RLBench 仿真实验中,Evo-0 在五个需要精细空间操作的任务上表现优异,平均成功率比基线模型 π0 提升 15%,相比 openvla-oft 更高出 31%。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

其核心技术在于将 VGGT 作为空间编码器,提取其在训练过程中生成的 t3^D token,这些 token 蕴含了丰富的深度上下文和跨视角的空间对应信息。

通过设计一个 cross-attention 融合模块,以 ViT 提取的 2D 视觉 token 作为 query,VGGT 输出的 3D token 作为 key 和 value,实现 2D 与 3D 表征的有效融合,增强模型对复杂空间结构的理解。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

融合后的特征与语言指令一同输入冻结主干的 VLM 模型,动作则由 flow-matching 策略生成。训练过程中仅微调融合模块、LoRA 适配层及动作专家部分,大幅降低了计算开销。

研究团队在 5 个 RLBench 模拟任务和 5 个真实机器人操作任务上进行了全面验证,并在 5 种不同干扰条件下评估鲁棒性。实验结果表明,Evo-0 在各类设置下均展现出更强的空间感知能力,性能全面超越现有先进 VLA 模型。

此外,在超参数分析实验中,团队重点考察了训练步数与执行步数对任务成功率的影响。结果显示,仅用 15k 步训练的 Evo-0 就已超过训练 20k 步的 π0 模型,证明其具备更高的学习效率。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

在真实机器人实验中,设置了五项对空间精度要求极高的任务:目标居中放置、插孔、密集抓取、置物架放置和透明物体操作。

MOKI
MOKI

MOKI是美图推出的一款AI短片创作工具,旨在通过AI技术自动生成分镜图并转为视频素材。

下载

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

Evo-0 在所有任务中均优于基线 π0,平均成功率提升达 28.88%。尤其在插孔和透明物体抓取任务中,展现了对复杂空间关系的深刻理解与高精度操控能力。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

鲁棒性测试涵盖五类干扰:(1)新增未见干扰物,(2)背景颜色变化,(3)目标位置偏移,(4)目标高度变动,(5)相机视角改变。Evo-0 在各项干扰下均保持稳定表现,且显著优于 π0。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

综上所述,Evo-0 的核心创新在于借助 VGGT 提取丰富的空间语义信息,规避了深度估计误差与专用传感器依赖,以即插即用的方式增强 VLA 模型的空间建模能力。该方法训练高效、部署灵活,为通用机器人智能策略的发展提供了新的可行路径。

论文链接:https://www.php.cn/link/5fa5ca950fb704c977027ddfc2ee7e3f

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 完 —

量子位智库 AI100 季度榜单征集中!征集截至 10 月 10 日。欢迎提名 2025 年 Q3「AI 100」双榜单产品~

一键关注 点亮星标

科技前沿进展每日见

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6098

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

809

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1262

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1996

2024.08.16

传感器故障解决方法
传感器故障解决方法

传感器故障排除指南:识别故障症状(如误读或错误代码)。检查电源和连接(确保连接牢固,无损坏)。校准传感器(遵循制造商说明)。诊断内部故障(目视检查、信号测试、环境影响评估)。更换传感器(选择相同规格,遵循安装说明)。验证修复(检查信号准确性,监测异常行为)。

468

2024.06.04

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

0

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

11

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

85

2026.01.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
XML教程
XML教程

共142课时 | 5.7万人学习

【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2万人学习

ECMAScript6 / ES6---十天技能课堂
ECMAScript6 / ES6---十天技能课堂

共25课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号