无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

WBOY

发布时间：2023-06-20 17:33:06

1411人浏览过

来源于51CTO.COM

转载

通过对齐三维形状、二维图片以及相应的语言描述，多模态预训练方法也带动了3d表征学习的发展。

不过现有的多模态预训练框架收集数据的方法缺乏可扩展性，极大限制了多模态学习的潜力，其中最主要的瓶颈在于语言模态的可扩展性和全面性。

最近，Salesforce AI联手斯坦福大学和得克萨斯大学奥斯汀分校，发布了ULIP（CVP R2023）和ULIP-2项目，这些项目正在引领3D理解的新篇章。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

论文链接：https://arxiv.org/pdf/2212.05171.pdf

论文链接：https://arxiv.org/pdf/2305.08275.pdf

代码链接：https://github.com/salesforce/ULIP

Favird No-Code Tools

无代码工具的聚合器

下载

研究人员采用了独特的方法，使用3D点云、图像和文本进行模型的预训练，将它们对齐到一个统一的特征空间。这种方法在3D分类任务中取得了最先进的结果，并为跨领域任务（如图像到3D检索）开辟了新的可能性。

并且ULIP-2将这种多模态预训练变得可以不需要任何人工标注，从而可以大规模扩展。

ULIP-2在ModelNet40的下游零样本分类上取得了显著的性能提升，达到74.0%的最高准确率；在现实世界的ScanObjectNN基准上，仅用140万个参数就获得了91.5%的总体准确率，标志着在无需人类3D标注的可扩展多模态3D表示学习方面的突破。

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

对齐（3D，图像，文本）这三种特征的预训练框架示意图

代码以及发布的大规模tri-modal的数据集(「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」)已经开源。

背景

3D理解是人工智能领域的重要组成部分，它让机器能像人类一样在三维空间中感知和互动。这种能力在自动驾驶汽车、机器人、虚拟现实和增强现实等领域都有着重要的应用。

然而，由于3D数据的处理和解释复杂性，以及收集和注释3D数据的成本，3D理解一直面临着巨大的挑战。

ULIP

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

Tri-modal 预训练框架以及其下游任务

ULIP（已经被CVPR2023接收）采用了一种独特的方法，使用3D点云、图像和文本进行模型的预训练，将它们对齐到一个统一的表示空间。

这种方法在3D分类任务中取得了最先进的结果，并为跨领域任务（如图像到3D检索）开辟了新的可能性。

ULIP的成功关键在于使用预先对齐的图像和文本编码器，如CLIP，它在大量的图像-文本对上进行预训练。

这些编码器将三种模态的特征对齐到一个统一的表示空间，使模型能够更有效地理解和分类3D对象。

这种改进的3D表示学习不仅增强了模型对3D数据的理解，而且还使得跨模态应用如zero-shot 3D分类和图像到3D检索成为可能，因为3D编码器获得了多模态上下文。

ULIP的预训练损失函数如下：

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

在ULIP的默认设置中，α被设置为0， β和θ被设置为1，每两个模态之间的对比学习损失函数的定义如下，这里M1和M2指三个模态中的任意两个模态：

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

ULIP还做了由图像到3D的retrieval的实验，效果如下：

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

实验结果可以看出ULIP预训练的模型已经能够学习到图像和三维点云间有意义的多模态特征。

令人惊讶的是，相较于其他的检索到的三维模型，第一名检索到的三维模型与查询图像的外观最为接近。

例如，当我们使用来自不同飞机类型（战斗机和客机）的图片进行检索（第二行和第三行），检索到的最接近的3D点云仍然保留了查询图像的微妙差异。

ULIP-2

这里是一个3D物体生成多角度文字描述的示例。我们先将3D物体以一组视角渲染成2D图像，接着使用大型多模态模型为所生成的所有图像生成描述

ULIP-2在ULIP的基础上，利用大型多模态模型为3D物体生成全方面对应的语言描述，从而收集可扩展的多模态预训练数据，无需任何人工标注，使预训练过程和训练后的模型更加高效并且增强其适应性。

ULIP-2的方法包括为每个3D物体生成多角度不同的语言描述，然后用这些描述来训练模型，使3D物体、2D图像、和语言描述在特征空间对齐一致。

这个框架使得无需手动注释就可以创建大量的三模态数据集，从而充分发挥多模态预训练的潜力。

ULIP-2还发布了生成的大规模三模态数据集：「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」。

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

两个tri-modal的datasets的一些统计数据

实验结果

ULIP系列在多模态下游任务和3D表达的微调实验中均取得了惊人的效果，尤其ULIP-2中的预训练是完全不需要借助任何人工的标注就可以实现的。

ULIP-2在ModelNet40的下游零样本分类任务中取得了显著的提升（74.0%的top-1准确率）；在真实世界的ScanObjectNN基准测试中，它仅用1.4M参数就取得了91.5%的总体准确率，这标志着在无需人工3D标注的情况下，实现了可扩展的多模态3D表示学习的突破。

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

消融实验

两篇论文均做了详尽的消融实验。

在「ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding」中，由于ULIP的预训练框架有三个模态的参与，所以作者用实验探究了究竟是只对齐其中的两个模态好还是对齐所有三个模态好，实验结果如下：

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

从实验结果中可以看到，在不同的3D backbone中，对齐三个模态一致的比只对齐两个模态好，这也应证了ULIP的预训练框架的合理性。

在「ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding」中，作者探究了不同的大型多模态模型会对预训练的框架有什么影响，结果如下：

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

实验结果可以看出，ULIP-2框架预训练的效果可以随着使用的大型多模态模型的升级而提升，具有一定的成长性。

在ULIP-2中，作者还探索了在生成tri-modal的数据集是采用不同数量的视角会如何影响整体预训练的表现，实验结果如下：

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

实验结果显示，随着使用的视角数量的增加，预训练的模型的zero-shot classification的效果也会随之增加。

这也应证了ULIP-2中的观点，更全方位多样性的语言描述会对多模态预训练有正向的作用。

除此之外，ULIP-2还探究了取CLIP排序过的不同topk的语言描述会对多模态预训练有什么影响，实验结果如下：

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

实验结果表明：ULIP-2的框架对不同的topk有一定的鲁棒性，论文中采用了top 5作为默认设置。

结论

由Salesforce AI，斯坦福大学，得克萨斯大学奥斯汀分校联手发布的ULIP项目（CVPR2023）和ULIP-2正在改变3D理解领域。

ULIP将不同的模态对齐到一个统一的空间，增强了3D特征的学习并启用了跨模态应用。

ULIP-2进一步发展，为3D对象生成整体语言描述，创建并开源了大量的三模态数据集，并且这个过程无需人工标注。

这些项目在3D理解方面设定了新的基准，为机器真正理解我们三维世界的未来铺平了道路。

团队

Salesforce AI:

Le Xue (薛乐)， Mingfei Gao (高明菲)，Chen Xing（星辰），Ning Yu（于宁）， Shu Zhang（张澍），Junnan Li（李俊男）， Caiming Xiong（熊蔡明），Ran Xu（徐然），Juan carlos niebles， Silvio savarese。

斯坦福大学：

Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吴佳俊)。

UT Austin：

Prof. Roberto Martín-Martín。

堆友AI怎么生成3D素材_堆友AI搭积木式建模技巧

腾讯混元怎么生成logo设计_腾讯混元企业VI辅助设计

Talksign-1— Talksign推出的AI实时美式手语翻译模型

GammaAI怎么嵌入3D模型_Gamma支持glb格式导入方法

可伶AI怎么配音_可伶AI中文语音合成口型同步教程

相关专题

li是什么元素

li是HTML标记语言中的一个元素，用于创建列表。li代表列表项，它是ul或ol的子元素，li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

436

2023.08.03

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4144

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2907

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板