0

0

Transformer统一化3D目标检测基于体素的表征

WBOY

WBOY

发布时间:2023-04-08 21:41:04

|

1337人浏览过

|

来源于51CTO.COM

转载

arXiv论文“Unifying Voxel-based Representation with Transformer for 3D Object Detection“,22年6月,香港中文大学、香港大学、旷视科技(纪念孙剑博士)和思谋科技等。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Transformer统一化3D目标检测基于体素的表征

本文提出一个统一的多模态3-D目标检测框架,称为UVTR。该方法旨在统一体素空间的多模态表示,实现准确、稳健的单模态或跨模态3-D检测。为此,首先设计模态特定空间来表示体素特征空间的不同输入。在不进行高度信息(height)压缩的情况下保留体素空间,减轻语义歧义并实现空间交互。基于这种统一方式,提出跨模态交互,充分利用不同传感器的固有特性,包括知识迁移和模态融合。通过这种方式,可以很好地利用点云的几何-觉察表达式和图像中上下文丰富的特征,获得更好的性能和鲁棒性。

transformer解码器用于从具备可学习位置的统一空间中高效采样特征,这有助于目标级交互。一般来说,UVTR代表在统一框架中表示不同模态的早期尝试,在单模态和多模态输入方面优于以往的工作,在nuScenes测试集上取得了领先的性能,激光雷达、相机和多模态输出的NDS分别为69.7%、55.1%和71.1%。

代码:https://github.com/dvlab-research/UVTR.

如图所示:

Transformer统一化3D目标检测基于体素的表征

在表征统一过程中,可以大致分为输入级流和特征级流的表示。对于第一种方法,多模态数据在网络开始时对齐。特别是,图(a)中的伪点云是从预测深度辅助的图像转换而来的,而图(b)中的距离视图图像是从点云投影而来的。由于伪点云的深度不准确和距离视图图像中的3-D几何塌陷,数据的空间结构受到破坏,从而导致较差的结果。对于特征级方法,典型的方法是将图像特征转换为截锥(frustum),然后压缩到BEV空间,如图(c)所示。然而,由于其类似射线的轨迹,每个位置的高度信息(height)压缩聚合了各种目标的特征,因此引入了语义多义。同时,他隐式方式很难支持3-D空间中的显式特征交互,并限制进一步的知识迁移。因此,需要一种更统一的表示法弥合模态的差距,并促进多方面的交互。

本文提出的框架,将基于体素的表示与transformer统一起来。特别是,在基于体素的显式空间中图像和点云的特征表征和交互。对于图像,根据预测的深度和几何约束,从图像平面采样特征来构建体素空间,如图(d)所示。对于点云,准确的位置自然允许特征与体素相关联。然后,引入体素编码器进行空间交互,建立相邻特征之间的关系。这样,跨模态交互自然地与每个体素空间的特征进行。对于目标级交互,采用可变形transformer作为解码器,对统一体素空间中每个位置(x、y、z)的目标查询特定特征进行采样,如图(d)所示。同时,3-D查询位置的引入有效地缓解了BEV空间中高度信息(height)压缩带来的语义多义。

Quillbot
Quillbot

一款AI写作润色工具,QuillBot的人工智能改写工具将提高你的写作能力。

下载

如图是多模态输入的UVTR架构:给定单帧或多帧图像和点云,首先在单个主干进行处理,并将其转换为特定于模态的空间VI和VP,其中视图转换用于图像。在体素编码器中,特征在空间上相互作用,并且 知识迁移在训练期间易于支持。根据不同的设置,通过模态开关选择单模态或多模态特征。最后,从具备可学习位置的统一空间VU中采样特征,利用transformer解码器进行预测。

Transformer统一化3D目标检测基于体素的表征

如图是视图变换的细节:

Transformer统一化3D目标检测基于体素的表征

如图是知识迁移的细节:

Transformer统一化3D目标检测基于体素的表征

实验结果如下:

Transformer统一化3D目标检测基于体素的表征

Transformer统一化3D目标检测基于体素的表征

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

2

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

2

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

0

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

0

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.29

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

25

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

16

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

622

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
前端小白零基础入门HTML5+CSS3
前端小白零基础入门HTML5+CSS3

共361课时 | 33.7万人学习

CSS3 3D 特效视频教程
CSS3 3D 特效视频教程

共14课时 | 3万人学习

7天教会你HTML5和CSS3视频教程
7天教会你HTML5和CSS3视频教程

共21课时 | 4.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号