0

0

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

王林

王林

发布时间:2024-07-11 12:40:36

|

999人浏览过

|

来源于机器之心

转载

想象一下,如果机器人能够听懂你的需求,并努力满足,是不是很美好呢?

如果想让机器人帮助你,你通常需要下达一个较为精准的指令,但指令在实际中的实现效果不一定理想。如果考虑真实环境,当要求机器人找某个特定的物品时,这个物品不一定真的存在当前的环境内,机器人无论如何也找不到;但是环境当中是不是可能存在一个其他物品,它和用户要求的物品有类似的功能,也能满足用户的需求呢?这就是用 “需求” 作为任务指令的好处了。

近日,北京大学董豪团队提出了一个新的导航任务 —— 需求驱动导航(Demand-driven Navigation,DDN),目前已被 NeurIPS 2023 接收。在这个任务当中,机器人被要求根据一条用户给定的需求指令,寻找能够满足用户需求的物品。同时,董豪团队还提出了学习基于需求指令的物品属性特征,有效地提高了机器人寻找物品的成功率。

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效
  • 论文地址:https://arxiv.org/pdf/2309.08138.pdf

  • 项目主页:https://sites.google.com/view/demand-driven-navigation/home北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

                                     项目视频

任务说明

具体地说,在任务的一开始,机器人会收到一条需求指令,比如 “我饿了”,“我渴了”,然后机器人就需要在场景内寻找一个能满足该需求的物品。因此,需求驱动导航本质上还是一个寻找物品的任务,在这之前已经有类似的任务 —— 视觉物品导航(Visual Object Navigation)。这两个任务的区别在于,前者是告知机器人 “我的需求是什么”,后者是告知机器人 “我要什么物品”。北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

将需求作为指令,意味着机器人需要对指令的内容进行推理和探索当前场景中的物品种类,然后才能找到满足用户需求的物品。从这一点上来说,需求驱动导航要比视觉物品导航难很多。虽说难度增加了,但是一旦机器人学会了根据需求指令寻找物品,好处还是很多的。比如:

  • 用户只需要根据自己的需求提出指令,而不用考虑场景内有什么。

  • 用需求作为指令可以提高用户需求被满足的概率。比如当 “渴了” 的时候,让机器人找 “茶” 和让机器人找 “能解渴的物品”,显然是后者包含的范围更大。

  • 用自然语言描述的需求拥有更大的描述空间,可以提出更为精细、更为确切的需求。

为了训练这样的机器人,需要建立一个需求指令到物品的映射关系,以便于环境给予训练信号。为了降低成本,董豪团队提出了一种基于大语言模型的、“半自动” 的生成方式:先用 GPT-3.5 生成场景中存在的物品能满足的需求,然后再人工过滤不符合要求的。

算法设计

考虑到能满足同一个需求的物品之间有相似的属性,如果能学到这种物品属性上的特征,机器人似乎就能利用这些属性特征来寻找物品。比如,对于 “我渴了” 这一需求,需要的物品应该具有 “解渴” 这一属性,而 “果汁”、“茶” 都具有这一属性。这里需要注意的是,对于一个物品,在不同的需求下可能表现出不同的属性,比如 “水” 既能表现出 “清洁衣物” 的属性(在 “洗衣服” 的需求下),也能表现出 “解渴” 这一属性(在 “我渴了” 的需求下)。

属性学习阶段

那么,如何让模型理解这种 “解渴”、“清洁衣物” 这些需求呢?注意到在某一需求下物品所表现出的属性,是一种较为稳定的常识。而最近几年,随着大语言模型(LLM)逐渐兴起,LLM 所表现出的对人类社会常识方面的理解让人惊叹。因此,北大董豪团队决定向 LLM 学习这种常识。他们先是让 LLM 生成了很多需求指令(在图中称为 Language-grounding Demand,LGD),然后再询问 LLM,这些需求指令能被哪些物品满足(在图中称为 Language-grounding Object,LGO)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

在这里要说明,Language-grounding 这一前缀强调了这些 demand/object 是可以从 LLM 中获取而不依赖于某个特定的场景;下图中的 World-grounding 强调了这些 demand/object 是与某个特定的环境(比如 ProcThor、Replica 等场景数据集)紧密结合的。

然后为了获取 LGO 在 LGD 下所表现出的属性,作者们使用了 BERT 编码 LGD、CLIP-Text-Encoder 编码 LGO,然后拼接得到 Demand-object Features。注意到在一开始介绍物品的属性时,有一个 “相似性”,作者们就利用这种相似性,定义了 “正负样本”,然后采用对比学习的方式训练 “物品属性”。具体来说,对于两个拼接之后的 Demand-object Features,如果这两个特征对应的物品能满足同一个需求,那么这两个特征就互为正样本(比如图中的物品 a 和物品 b 都能满足需求 D1,那么 DO1-a 和 DO1-b 就互为正样本);其他任何拼接均互为负样本。作者们将 Demand-object Features 输入到一个 TransformerEncoder 架构的 Attribute Module 之后,就采用 InfoNCE Loss 训练了。

导航策略学习阶段

通过对比学习,Attribute Module 中已经学到了 LLM 提供的常识,在导航策略学习阶段,Attribute Module 的参数被直接导入,然后采用模仿学习的方式学习由 A* 算法收集的轨迹。在某一个时间步,作者采用 DETR 模型,将当前视野中的物品分割出来,得到 World-grounding Object,然后由 CLIP-Visual-Endocer 编码。其他的流程与属性学习阶段类似。最后将对需求指令的 BERT 特征、全局图片特征、属性特征拼接,送入一个 Transformer 模型,最终输出一个动作。

Figma
Figma

Figma 是一款基于云端的 UI 设计工具,可以在线进行产品原型、设计、评审、交付等工作。

下载

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

值得注意的是,作者们在属性学习阶段使用了 CLIP-Text-Encoder,而在导航策略学习阶段,作者们使用了 CLIP-Visual-Encoder。这里巧妙地借助于 CLIP 模型在视觉和文本上强大的对齐能力,将从 LLM 中学习到的文本常识转移到了每一个时间步的视觉上。

实验结果

实验是在 AI2Thor simulator 和 ProcThor 数据集上进行,实验结果表明,该方法显著高于之前各种视觉物品导航算法的变种、大语言模型加持下的算法。

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

VTN 是一种闭词汇集的物品导航算法(closed-vocabulary navigation),只能在预先设定的物品上进行导航任务。作者们对它的算法做了一些变种,然而不管是将需求指令的 BERT 特征作为输入、还是将 GPT 对指令的解析结果作为输入,算法的结果都不是很理想。当换成 ZSON 这种开词汇集的导航算法(open-vocabulary navigation),由于 CLIP 在需求指令和图片之间的对齐效果并不好,导致了 ZSON 的几个变种也无法很好的完成需求驱动导航任务。而一些基于启发式搜索 + LLM 的算法由于 Procthor 数据集场景面积较大,探索效率较低,其成功率并没有很高。纯粹的 LLM 算法,例如 GPT-3-Prompt 和 MiniGPT-4 都表现出较差的对场景不可见位置的推理能力,导致无法高效地发现满足要求的物品。

消融实验表明了 Attribute Module 显著提高了导航成功率。作者们展示了 t-SNE 图很好地表现出 Attribute Module 通过 demand-conditioned contrastive learning 成功地学习到了物品的属性特征。而将 Attribute Module 架构换成 MLP 之后,性能出现了下降,说明 TransformerEncoder 架构更适合用于捕捉属性特征。BERT 很好提取了需求指令的特征,使得对 unseen instruction 泛化性得到了提升。

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效
北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

下面是一些可视化:北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

本次研究的通讯作者董豪博士现任北京大学前沿计算研究中心助理教授,博士生导师、博雅青年学者和智源学者,他于 2019 年创立并领导北大超平面实验室(Hyperplane Lab),目前已在 NeurIPS、ICLR、CVPR、ICCV、ECCV 等国际顶尖会议 / 期刊上发表论文 40 余篇,Google Scholar 引用 4700 余次,曾获得 ACM MM 最佳开源软件奖和 OpenI 杰出项目奖。他还曾多次担任国际顶尖会议如 NeurIPS、 CVPR、AAAI、ICRA 的领域主席和副编委,承担多项国家级和省级项目,主持科技部新一代人工智能 2030 重大项目。

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

论文第一作王鸿铖,现为北京大学计算机学院二年级博士生。他的研究兴趣聚焦在机器人、计算机视觉以及心理学,希望能从人类的行为、认知、动机方面入手,对齐人与机器人之间的联系。

北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效

参考链接:

[1] https://zsdonghao.github.io/

[2] https://whcpumpkin.github.io/

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

773

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

407

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2073

2024.08.16

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

16

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

138

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

7

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

6

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Node.js 教程
Node.js 教程

共57课时 | 9.5万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号