0

0

PVTransformer: 可扩展3D检测的点到体素Transformer

王林

王林

发布时间:2024-05-25 11:40:19

|

1275人浏览过

|

来源于51CTO.COM

转载

原标题:pvtransformer: point-to-voxel transformer for scalable 3d object detection

论文链接:https://arxiv.org/pdf/2405.02811

作者单位:Waymo Research

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

PVTransformer: 可扩展3D检测的点到体素Transformer

论文思路:

本文介绍了一种基于Transformer的点到体素结构用于3D检测的方法。文章提出了PVTransformer,它使用注意力机制模块替换PointNet的池化操作,从而实现更好的点到体素聚合函数。本文的设计尊重3D点的置换不变性,同时比基于池化的PointNet更具表现力。实验证明,本文的PVTransformer在性能上比最新的3D目标检测器有显著提升。在广泛使用的Waymo Open Dataset上,本文的PVTransformer达到了76.5 mAPH L2的最新水平,超过了之前的SWFormer+1.7 mAPH L2。

主要贡献:

新架构:引入了一种基于注意力的点-体素架构,即PVTransformer,旨在解决PointNet的池化限制问题。

新颖的扩展研究:启动对基于Transformer的3D检测器架构可扩展性的探索。

广泛研究:通过广泛的架构搜索,本文展示了所提出的PVTransformer架构的有效性,其在Waymo Open Dataset上达到了76.5 mAPH L2的最新水平。

网络设计:

在城市环境中的自动驾驶3D目标检测需求处理大量稀疏且无序的点,这些点散布在开放的三维空间中。为了管理点的不规则分布,现有方法将点聚合成二维或三维元素表示 [35],利用PointNet类型的特征编码器 [20] 将点特征聚合到体素中,随后通过主干网络和检测头进行处理。然而,现有的点架构往往被忽视,并因其简约设计而受到限制,即少数几个全连接层后跟一个最大池化层。本文观察到,3D目标检测中的普通池化操作引入了信息损失。与图像识别中的标准2D最大池化不同,后者用于有限的像素集合,3D检测器中的点-体素池化层必须聚合大量无序点。这导致了在池化层之后点特征的显著信息损失。 另一方面,PointNet类型模块的关键在于最大池化层,在最大池化层中提取信息并作为聚合函数。尽管利用了众多全连接层进行特征提取,但体素内所有点的特征通常通过最大池化层进行聚合。例如,在Waymo Open Dataset [26] 中,常见一个0.32m × 0.32m的体素中有超过100个点,这些点被池化成一个单一的体素特征向量。这导致了在池化层之后点特征的显著信息损失,因为多个点特征被池化成一个体素特征向量。 为了改善这种情况,我们推出了一种新颖的点-体素池化层,该层能够聚合大量无序点。与普通的最大池化不同,我们的方法在点和体素之间建立了一种聚合机制,将点特征聚合到体素中,并随后通过主干网络和检测头进行处理。通过利用众多全连接层进行特征提取,我们的方法能够提取更丰富的特征信息,并作为聚合函数。同时,我们的方法在点特征的某个维度上增加了池化层,使每个点在池化层中被独立处理。这样可以有效避免点特征的显著信息损失,并提高3D目标检测器的性能。 综上所述,通过改进点-体素池化层,我们提出了一种新颖的方法来处理3D目标检测中的稀疏无序点。该方法能够利用多个全连接层对点特征进行特征提取,并将其聚合到体素中。通过引入独立的池化层处理每个点特征,我们能够有效避免信息损失,从而提高3D目标检测器的性能。

为了解决基于池化的PointNet架构的局限性,本文引入了PVTransformer,这是一种基于Transformer [29] 的新型注意力点-体素结构,用于3D目标检测。PVTransformer的目标是通过注意力模块端到端学习点云中由于池化操作引入的信息瓶颈。在PVTransformer中,每个体素中的每个点被视为一个token,并使用单个查询向量来查询所有点tokens,从而聚合并编码体素内所有点的特征到单个的体素特征向量中。PVTransformer中的基于注意力的聚合模块作为一个集合操作符(set operator)保持了排列不变性,但比最大池化更具表现力。值得注意的是,与其他基于Transformer的点网络如Point Transformer [32] 使用池化来聚合不同,PVTransformer旨在学习特征聚合函数,而无需依赖启发式的池化操作。

本文在Waymo Open Dataset上评估了PVTransformer,这是目前最大的公开3D点云数据集 [26]。实验结果表明,PVTransformer通过改进点到体素的聚合,显著优于之前基于PointNet的3D目标检测器。此外,PVTransformer使本文能够扩展模型,实现了新的最先进水平:在车辆和行人检测中分别达到了76.1 mAPH L2和85.0/84.7 AP L1。值得注意的是,本文的体素主干网络和损失设计主要基于先前的SWFormer [27],但本文新提出的点到体素Transformer相比基线SWFormer提高了+1.7 mAPH L2。

码上飞
码上飞

码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。

下载

PVTransformer: 可扩展3D检测的点到体素Transformer

图1:PVTransformer(PVT)作为一种可扩展的架构。PVTransformer解决了之前基于体素的3D检测器中的池化瓶颈,并展示了相较于扩展PointNet(Scale Point)和体素架构(Scale Voxel)更好的可扩展性。每个点的大小表示模型的Flops。更多细节请参见图4和图5。

PVTransformer: 可扩展3D检测的点到体素Transformer

图2:PVTransformer架构概述。PVTransformer架构包含点架构和体素架构。其创新之处在于点架构,用一种新颖的Transformer设计替代了PointNet。在点架构中,点被分组到pillars内,每个pillars被视为一个token。在一个体素内,点首先经过自注意力Transformer,然后通过交叉注意力Transformer将点特征聚合为体素特征,详细信息见图3(b)。稀疏的BEV体素特征随后进入体素架构,采用多尺度稀疏窗口Transformer(SWFormer Block)[27]进行编码,并使用CenterNet头进行边界框预测[31]。

PVTransformer: 可扩展3D检测的点到体素Transformer

图3:PVTransformer中的点到体素聚合。该模块使用Transformer层替代了PointNet的最大池化[20]。

PVTransformer: 可扩展3D检测的点到体素Transformer

图4:PVTransformer:更好的可扩展性。增加PointNet(PN)的深度(红色,紫色)和通道(黄色)仅带来适度的性能提升,而扩展PVTransformer PVT(绿色)则显示出显著的性能提升。之前的工作中,无论是单尺度(SS)[4]还是多尺度(MS)[27]架构,都使用PointNet进行点特征聚合,但在超过某些阈值时性能不佳,导致过拟合。PVTransformer(绿色)通过引入基于Transformer的点到体素编码器,克服了这些限制,使其能够有效扩展超过 300 GFlops,并在Waymo Open Dataset验证集上实现了车辆和行人检测的74.0 mAPH L2。

PVTransformer: 可扩展3D检测的点到体素Transformer

图5:当使用PointNet(PN)来聚合点特征时,体素架构的可扩展性有限。右图:使用Transformer来聚合点特征(PVT L)(绿色)显著优于使用PointNet并仅在体素架构中将通道扩展到256(蓝色),在相似的Flops下提高了3.5 mAPH L2。左图:从搜索空间(见表V)中随机采样的体素架构在训练12.8个epoch后的性能表现。本文观察到,使用PointNet扩展体素架构可能导致次优性能。帕累托曲线(红色曲线)显示,将体素架构的通道数从128扩展到192和256会导致过拟合。在Waymo Open Dataset验证集上报告了车辆和行人的mAPH L2。

实验结果:

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

总结:

本文旨在为大规模3D目标检测器实现更好的可扩展性,并发现基于池化的PointNet为现代3D目标检测器引入了信息瓶颈。为了解决这一限制,本文提出了一个新的PVTransformer架构,该架构使用基于注意力机制的Transformer将点特征聚合到体素特征中。本文证明了这种点到体素的Transformer比简单的PointNet池化层更具表现力,因此在性能上远远超过了以往的3D目标检测器。本文的PVTransformer显著优于之前的技术,如SWFormer,并在具有挑战性的Waymo Open Dataset上实现了新的最先进的结果。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6169

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

817

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1066

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1353

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2081

2024.08.16

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

167

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

35

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

74

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
前端小白零基础入门HTML5+CSS3
前端小白零基础入门HTML5+CSS3

共361课时 | 33.6万人学习

CSS3 3D 特效视频教程
CSS3 3D 特效视频教程

共14课时 | 3万人学习

7天教会你HTML5和CSS3视频教程
7天教会你HTML5和CSS3视频教程

共21课时 | 4.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号