0

0

NTU提出全新RAM模型,采用Meta分割一切来搞定关系,唱跳偷袭效果极佳!

王林

王林

发布时间:2023-05-10 10:22:09

|

1251人浏览过

|

来源于51CTO.COM

转载

本月初,Meta推出的「分割一切」模型可谓是震撼了整个CV圈。

这几天,一款名为「Relate-Anything-Model(RAM)」的机器学习模型横空出世。它赋予了Segment Anything Model(SAM)识别不同视觉概念之间的各种视觉关系的能力。

据了解,该模型由南洋理工大学MMLab团队和伦敦国王学院和同济大学的VisCom实验室的同学利用闲暇时间合作开发。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

演示地址:https://huggingface.co/spaces/mmlab-ntu/relate-anything-model

代码地址:https://github.com/Luodian/RelateAnything

数据集地址:https://github.com/Jingkang50/OpenPSG

效果演示

首先,让我们来看一看「Relate-Anything-Model(RAM)」的应用实例吧!

比如,下面这些关于踢足球、跳舞和交朋友的RAM模型实现的图像分析结果,就让人印象非常深刻,很好地展示了模型出色的性能和多样化应用的潜力。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

预备知识:全场景图生成PSG任务

RAM模型基于ECCV'22 SenseHuman Workshop & 国际算法算例大赛「Panoptic Scene Graph Generation」赛道冠军方案。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

论文地址:https://arxiv.org/abs/2302.02651

Manus
Manus

全球首款通用型AI Agent,可以将你的想法转化为行动。

下载

该PSG挑战赛奖金百万,共收到来自全球100支团队提交的各种解决方案,其中包括了使用先进的图像分割方法以及解决长尾问题等。此外,竞赛还收到了一些创新性的方法,如场景图专用的数据增强技术。

经过评估,根据性能指标、解决方案的新颖性和意义等方面的考虑,小红书团队的GRNet脱颖而出,成为获胜的方法。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

比赛详情:https://github.com/Jingkang50/OpenPSG

在介绍解决方案之前,我们首先来介绍两个经典的PSG基线方法,其中一个是双阶段方法,另一个是单阶段方法。

对于双阶段基线方法,如图a所示,在第一阶段中,使用预训练的全景分割模型Panoptic FPN从图像中提取特征、分割和分类预测。然后,将每个个体对象的特征提供给经典的场景图生成器,如IMP,以便在第二阶段进行适应PSG任务的场景图生成。该双阶段方法允许经典的SGG方法通过最小的修改适应PSG任务。

如图b所示,单阶段基线方法PSGTR首先使用CNN提取图像特征,然后使用类似DETR的transformer编码器-解码器来直接学习三元组表示。匈牙利匹配器用于将预测的三元组与基本真实三元组进行比较。然后,优化目标最大化匹配器计算的成本,并使用交叉熵进行标签和分割的DICE/F-1损失计算总损失。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

RAM模型架构

在RAM模型的设计过程中,作者参考了PSG冠军方案GRNet的双阶段结构范式。尽管PSG原文的研究中表明,单阶段模型目前的表现优于双阶段模型,然而,单阶段模型通常无法像双阶段模型那样达到良好的分割性能。

经对不同模型结构的观察推测,单阶段模型在关系三元组预测上的优异表现可能是由于来自图像特征图的直接监督信号有利于捕捉关系。

基于这一观察,RAM的设计同GRNet一样,旨在两个模式之间找到一个权衡,通过重视双阶段范式并赋予其类似于单阶段范式中获取全局上下文的能力来实现。

具体地,首先利用Segment Anything Model(SAM)作为特征提取器,识别和分割图像中的物体对象,将来自SAM分割器的特定对象的中间特征映射与其对应的分割融合,得到对象级别特征。

随后,把Transformer作为一种全局上下文模块,将获得的对象级别特征经过线性映射后输入其中。通过Transformer编码器中的交叉注意力机制,输出的对象特征从其他对象中收集了更多的全局信息。

最后,对于Transformer输出的每个对象级别特征,通过self-attention机制进一步丰富上下文信息并使各个物体对象之间完成交互。

请注意,这里还添加了一个类别嵌入以指示对象的类别,并由此得到了成对的物体及它们之间关系的预测。

RAM关系分类

在训练过程中,对于每个关系类别,需要执行关系二元分类任务以确定对象对之间是否存在关系。

和GRNet相似的,对关系二元分类任务还有一些特别的考虑。例如, PSG数据集通常包含两个具有多个关系的对象,例如「人看着大象」和「人喂大象」同时存在。为了解决多标签问题,作者将关系预测从单标签分类问题转换为多标签分类问题。

此外,由于PSG数据集通过要求注释者选择特定和准确的谓词(如「停在」而不是更一般的「在」)来追求精度和相关性,可能不适合学习边界关系(如「在」实际上与「停在」同时存在)。为了解决这个问题,RAM采用了一种自我训练策略,使用自我蒸馏标签进行关系分类,并使用指数移动平均来动态更新标签。

RAM的其他设计

在计算关系二元分类损失时,每个预测对象必须与其对应的基础真实对象配对。匈牙利匹配算法用于此目的。

然而,该算法容易出现不稳定情况,特别是在网络准确度低的早期训练阶段。这可能导致对于相同的输入,匹配产生不同的匹配结果,导致网络优化方向不一致,使训练变得更加困难。

在RAM中,不同于之前方案,作者借助于强大的SAM模型,可以对几乎任何图片进行完整且细致的分割,因此,在匹配预测和GT过程中, RAM自然地设计了新的GT匹配方法:使用PSG数据集来训练模型。

对于每个训练图像,SAM会分割多个物体,但只有少数与PSG的ground truth(GT)mask相匹配。作者根据它们的交集-并集(IOU)分数进行简单的匹配,以便(几乎)每个GT mask都被分配到一个SAM mask中。之后,作者根据SAM的mask重新生成关系图,自然地匹配上了模型的预测。

RAM模型总结

在RAM模型中,作者利用Segment Anything Model(SAM)来识别和分割图像中的物体,并提取每个分割物体的特征。随后使用Transformer模块来使分割物体之间产生交互作用,从而得到新的特征。最后将这些特征经过类别嵌入后,通过self-attention机制输出预测结果。

在训练过程中,特别地,作者提出了新的GT匹配方法并基于该方法,计算预测和GT的配对关系并分类它们的相互关系。在关系分类的监督学习过程中,作者视之为多标签分类问题并采用了一种自我训练策略学习标签的边界关系。

最后,希望RAM模型能够为你带来更多的启发和创新。如果你也想训练会找关系的机器学习模型,可以关注该团队的工作,并随时提出反馈和建议。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

项目地址:https://github.com/Jingkang50/OpenPSG

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

2

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

2

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

0

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

0

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.29

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

25

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

16

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

622

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.6万人学习

Go 教程
Go 教程

共32课时 | 4.3万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号