0

0

用于激光雷达点云自监督预训练SOTA!

王林

王林

发布时间:2023-09-15 09:53:07

|

1508人浏览过

|

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

用于激光雷达点云自监督预训练SOTA!

论文思路:

masked autoencoding已经成为文本、图像和最近的点云的transformer模型的一个成功的预训练范例。原始的汽车数据集适合进行自监督的预训练,因为与3d目标检测(od)等任务的标注相比,它们的收集成本通常较低。然而,针对点云的masked autoencoders的开发仅仅集中在合成和室内数据上。因此,现有的方法已经将它们的表示和模型定制为小而稠密的点云,具有均匀的点密度。在这项工作中,本文研究了在汽车设置中对点云进行的masked autoencoding,这些点云是稀疏的,并且在同一场景中,点云的密度在不同的物体之间可以有很大的变化。为此,本文提出了voxel-mae,这是一种为体素表示而设计的简单的masked autoencoding预训练方案。本文对基于transformer三维目标检测器的主干进行了预训练,以重建masked体素并区分空体素和非空体素。本文的方法提高了具有挑战性的nuscenes数据集上1.75 map和1.05 nds的3d od性能。此外,本文表明,通过使用voxel-mae进行预训练,本文只需要40%的带注释数据就可以超过随机初始化的等效数据。

主要贡献:

本文提出了Voxel-MAE(一种在体素化的点云上部署MAE-style的自监督预训练的方法),并在大型汽车点云数据集nuScenes上对其进行了评估。本文的方法是第一个使用汽车点云Transformer主干的自监督预训练方案。

本文针对体素表示定制本文的方法,并使用一组独特的重建任务来捕捉体素化点云的特征。

本文证明了本文的方法数据高效,并且减少了对带注释数据的需求。通过预训练,当只使用40%的带注释的数据时,本文的性能优于全监督的数据。

此外,本文发现Voxel-MAE在mAP中将基于Transformer检测器的性能提高了1.75个百分点,在NDS中将其性能提高了1.05个百分点,与现有的自监督方法相比,其性能提高了2倍。

网络设计:

这项工作的目的是将MAE-style的预训练扩展到体素化的点云。核心思想仍然是使用编码器从对输入的部分观察中创建丰富的潜在表示,然后使用解码器重构原始输入,如图2所示。经过预训练后,编码器被用作3D目标检测器的主干。但是,由于图像和点云之间的基本差异,需要对Voxel-MAE的有效训练进行一些修改。

绘蛙AI商品图
绘蛙AI商品图

电商场景的AI创作平台,无需高薪聘请商拍和文案团队,使用绘蛙即可低成本、批量创作优质的商拍图、种草文案

下载

用于激光雷达点云自监督预训练SOTA!

图2:本文的Voxel-MAE方法。首先,用固定的体素大小对点云进行体素化。图中的体素大小已被夸大,以实现可视化的目的。在训练前,很大一部分(70%)的非空体素被随机mask掉了。然后,编码器只应用于可见体素,使用嵌入[46]的动态体素特征嵌入这些体素。masked非空体素和随机选择的空体素使用相同的可学习mask tokens嵌入。然后,解码器对mask tokens序列和编码的可见体素序列进行处理,以重构masked点云并区分空体素和非空体素。在预训练之后,丢弃解码器,并将编码器应用于unmasked点云。

用于激光雷达点云自监督预训练SOTA!

图1:MAE(左)将图像划分为固定大小的不重叠的patches。现有的masked点建模方法(中)通过使用最远点采样和k近邻创建固定数量的点云patches。本文的方法(右)使用非重叠体素和动态数量的点。

实验结果:

用于激光雷达点云自监督预训练SOTA!

用于激光雷达点云自监督预训练SOTA!

用于激光雷达点云自监督预训练SOTA!

用于激光雷达点云自监督预训练SOTA!

用于激光雷达点云自监督预训练SOTA!

用于激光雷达点云自监督预训练SOTA!

引用:

Hess G, Jaxing J, Svensson E, et al. Masked autoencoder for self-supervised pre-training on lidar point clouds[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023: 350-359.

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

75

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

36

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

60

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

40

2025.11.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

25

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

6

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

24

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

3

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

5

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 9.4万人学习

Rust 教程
Rust 教程

共28课时 | 4.8万人学习

Vue 教程
Vue 教程

共42课时 | 7.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号