PVTransformer: 可扩展3D检测的点到体素Transformer

王林

发布时间：2024-05-25 11:40:19

1275人浏览过

来源于51CTO.COM

转载

原标题：pvtransformer: point-to-voxel transformer for scalable 3d object detection

论文链接：https://arxiv.org/pdf/2405.02811

作者单位：Waymo Research

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

PVTransformer: 可扩展3D检测的点到体素Transformer

论文思路：

本文介绍了一种基于Transformer的点到体素结构用于3D检测的方法。文章提出了PVTransformer，它使用注意力机制模块替换PointNet的池化操作，从而实现更好的点到体素聚合函数。本文的设计尊重3D点的置换不变性，同时比基于池化的PointNet更具表现力。实验证明，本文的PVTransformer在性能上比最新的3D目标检测器有显著提升。在广泛使用的Waymo Open Dataset上，本文的PVTransformer达到了76.5 mAPH L2的最新水平，超过了之前的SWFormer+1.7 mAPH L2。

主要贡献：

新架构：引入了一种基于注意力的点-体素架构，即PVTransformer，旨在解决PointNet的池化限制问题。

新颖的扩展研究：启动对基于Transformer的3D检测器架构可扩展性的探索。

广泛研究：通过广泛的架构搜索，本文展示了所提出的PVTransformer架构的有效性，其在Waymo Open Dataset上达到了76.5 mAPH L2的最新水平。

网络设计：

在城市环境中的自动驾驶3D目标检测需求处理大量稀疏且无序的点，这些点散布在开放的三维空间中。为了管理点的不规则分布，现有方法将点聚合成二维或三维元素表示 [35]，利用PointNet类型的特征编码器 [20] 将点特征聚合到体素中，随后通过主干网络和检测头进行处理。然而，现有的点架构往往被忽视，并因其简约设计而受到限制，即少数几个全连接层后跟一个最大池化层。本文观察到，3D目标检测中的普通池化操作引入了信息损失。与图像识别中的标准2D最大池化不同，后者用于有限的像素集合，3D检测器中的点-体素池化层必须聚合大量无序点。这导致了在池化层之后点特征的显著信息损失。另一方面，PointNet类型模块的关键在于最大池化层，在最大池化层中提取信息并作为聚合函数。尽管利用了众多全连接层进行特征提取，但体素内所有点的特征通常通过最大池化层进行聚合。例如，在Waymo Open Dataset [26] 中，常见一个0.32m × 0.32m的体素中有超过100个点，这些点被池化成一个单一的体素特征向量。这导致了在池化层之后点特征的显著信息损失，因为多个点特征被池化成一个体素特征向量。为了改善这种情况，我们推出了一种新颖的点-体素池化层，该层能够聚合大量无序点。与普通的最大池化不同，我们的方法在点和体素之间建立了一种聚合机制，将点特征聚合到体素中，并随后通过主干网络和检测头进行处理。通过利用众多全连接层进行特征提取，我们的方法能够提取更丰富的特征信息，并作为聚合函数。同时，我们的方法在点特征的某个维度上增加了池化层，使每个点在池化层中被独立处理。这样可以有效避免点特征的显著信息损失，并提高3D目标检测器的性能。综上所述，通过改进点-体素池化层，我们提出了一种新颖的方法来处理3D目标检测中的稀疏无序点。该方法能够利用多个全连接层对点特征进行特征提取，并将其聚合到体素中。通过引入独立的池化层处理每个点特征，我们能够有效避免信息损失，从而提高3D目标检测器的性能。

为了解决基于池化的PointNet架构的局限性，本文引入了PVTransformer，这是一种基于Transformer [29] 的新型注意力点-体素结构，用于3D目标检测。PVTransformer的目标是通过注意力模块端到端学习点云中由于池化操作引入的信息瓶颈。在PVTransformer中，每个体素中的每个点被视为一个token，并使用单个查询向量来查询所有点tokens，从而聚合并编码体素内所有点的特征到单个的体素特征向量中。PVTransformer中的基于注意力的聚合模块作为一个集合操作符（set operator）保持了排列不变性，但比最大池化更具表现力。值得注意的是，与其他基于Transformer的点网络如Point Transformer [32] 使用池化来聚合不同，PVTransformer旨在学习特征聚合函数，而无需依赖启发式的池化操作。

本文在Waymo Open Dataset上评估了PVTransformer，这是目前最大的公开3D点云数据集 [26]。实验结果表明，PVTransformer通过改进点到体素的聚合，显著优于之前基于PointNet的3D目标检测器。此外，PVTransformer使本文能够扩展模型，实现了新的最先进水平：在车辆和行人检测中分别达到了76.1 mAPH L2和85.0/84.7 AP L1。值得注意的是，本文的体素主干网络和损失设计主要基于先前的SWFormer [27]，但本文新提出的点到体素Transformer相比基线SWFormer提高了+1.7 mAPH L2。

码上飞

码上飞（CodeFlying）是一款AI自动化开发平台，通过自然语言描述即可自动生成完整应用程序。

下载

PVTransformer: 可扩展3D检测的点到体素Transformer

图1：PVTransformer（PVT）作为一种可扩展的架构。PVTransformer解决了之前基于体素的3D检测器中的池化瓶颈，并展示了相较于扩展PointNet（Scale Point）和体素架构（Scale Voxel）更好的可扩展性。每个点的大小表示模型的Flops。更多细节请参见图4和图5。

PVTransformer: 可扩展3D检测的点到体素Transformer

图2：PVTransformer架构概述。PVTransformer架构包含点架构和体素架构。其创新之处在于点架构，用一种新颖的Transformer设计替代了PointNet。在点架构中，点被分组到pillars内，每个pillars被视为一个token。在一个体素内，点首先经过自注意力Transformer，然后通过交叉注意力Transformer将点特征聚合为体素特征，详细信息见图3（b）。稀疏的BEV体素特征随后进入体素架构，采用多尺度稀疏窗口Transformer（SWFormer Block）[27]进行编码，并使用CenterNet头进行边界框预测[31]。

PVTransformer: 可扩展3D检测的点到体素Transformer

图3：PVTransformer中的点到体素聚合。该模块使用Transformer层替代了PointNet的最大池化[20]。

PVTransformer: 可扩展3D检测的点到体素Transformer

图4：PVTransformer：更好的可扩展性。增加PointNet（PN）的深度（红色，紫色）和通道（黄色）仅带来适度的性能提升，而扩展PVTransformer PVT（绿色）则显示出显著的性能提升。之前的工作中，无论是单尺度（SS）[4]还是多尺度（MS）[27]架构，都使用PointNet进行点特征聚合，但在超过某些阈值时性能不佳，导致过拟合。PVTransformer（绿色）通过引入基于Transformer的点到体素编码器，克服了这些限制，使其能够有效扩展超过 300 GFlops，并在Waymo Open Dataset验证集上实现了车辆和行人检测的74.0 mAPH L2。

PVTransformer: 可扩展3D检测的点到体素Transformer

图5：当使用PointNet（PN）来聚合点特征时，体素架构的可扩展性有限。右图：使用Transformer来聚合点特征（PVT L）（绿色）显著优于使用PointNet并仅在体素架构中将通道扩展到256（蓝色），在相似的Flops下提高了3.5 mAPH L2。左图：从搜索空间（见表V）中随机采样的体素架构在训练12.8个epoch后的性能表现。本文观察到，使用PointNet扩展体素架构可能导致次优性能。帕累托曲线（红色曲线）显示，将体素架构的通道数从128扩展到192和256会导致过拟合。在Waymo Open Dataset验证集上报告了车辆和行人的mAPH L2。

实验结果：

PVTransformer: 可扩展3D检测的点到体素Transformer

总结：

本文旨在为大规模3D目标检测器实现更好的可扩展性，并发现基于池化的PointNet为现代3D目标检测器引入了信息瓶颈。为了解决这一限制，本文提出了一个新的PVTransformer架构，该架构使用基于注意力机制的Transformer将点特征聚合到体素特征中。本文证明了这种点到体素的Transformer比简单的PointNet池化层更具表现力，因此在性能上远远超过了以往的3D目标检测器。本文的PVTransformer显著优于之前的技术，如SWFormer，并在具有挑战性的Waymo Open Dataset上实现了新的最先进的结果。

AI生成3D模型工具推荐，游戏和设计从业者必看

如何用AI将真人视频转为动漫风格？

VerseCrafter— 复旦联合腾讯开源的动态真实视频世界模型

怎么用ai做动画短片_AI逐帧动画生成与故事板一键转视频方法

怎么用ai生成3D模型_AI文本/图片到三维模型转换技巧