0

0

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

碧海醫心

碧海醫心

发布时间:2024-11-25 15:43:01

|

803人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

文本、图像、点云任意模态输入,ai能够一键生成高质量cad模型了

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者为上海科技大学信息学院硕士生徐京伟和忆生科技的王晨宇,指导老师为香港大学的马毅教授和高盛华教授。王晨宇毕业于上海科技大学并获得工学硕士学位。其所在的忆生科技由马毅教授于 23 年底创立,致力于打造完整、自主、自洽的机器智能系统。

该项目由忆生科技联合香港大学、上海科技大学共同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。

Background Eraser
Background Eraser

AI自动删除图片背景

下载

计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前的 CAD 软件普遍缺乏简易的交互工具,这在一定程度上限制了未曾接触过 CAD 的用户尝试和探索的可能性。对于 CAD 建模从业者而言,多模态大模型技术的快速发展尚未充分转化为 CAD 领域实际应用的便利性和效率提升。如果能够通过多模态交互工具有效优化建模流程,提升效率、节约时间与精力,不仅可以进一步释放专业用户的创造潜能,还将为相关产业的发展注入新的活力。

为应对这一挑战,项目团队构建了首个覆盖文本、图像和点云输入的多模态 CAD 数据集 Omni-CAD。该数据集致力于赋能多模态大语言模型,使其能够基于条件输入生成高质量的 CAD 模型。与此同时,针对 CAD 模型的拓扑质量、空间封闭性等核心属性,团队还设计了一系列创新的评估指标,为模型性能提供更全面的衡量标准。借助这一技术,用户只需输入简单的文本指令,或上传目标形状的图像,即可快速生成符合要求的 CAD 模型。这一突破不仅降低了非专业用户的使用门槛,激发了更多人参与 CAD 设计的兴趣,还为 CAD 建模从业者提供了高效可靠的工具支持。

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
  • 论文标题:CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
  • 论文地址:https://arxiv.org/pdf/2411.04954
  • 项目主页:https://cad-mllm.github.io/

研究背景计算机辅助设计(CAD)技术通过数字化工具,帮助设计师创建、修改和优化复杂对象,广泛应用于工业设计与制造。但传统的流程较为复杂,对专业知识有较高要求,导致非专业用户难以参与设计。如何降低使用门槛,让非专业人士通过简单指令完成设计构想,已成为该领域亟待解决的挑战之一。尽管之前一些工作已经在探索 CAD 的生成任务,但这些方法抑或难以满足用户对交互设计的需求,抑或只能针对特定的输入进行生成,因此我们希望提供一个统一的框架能够处理不同或多种输入条件的 CAD 生成任务。

而另一方面,尽管多模态大模型(MLLMs)展现了跨模态生成的潜力,但在 CAD 领域依然面临挑战。尤其是在如何高效表征各种模态和 CAD 模型上,同时,数据集匮乏问题也一直是一大瓶颈。因此,我们提出了 CAD-MLLM,首个支持文本、图像和点云三种模态及其组合模态输入的以命令序列来表征的参数化 CAD 大模型,并搭配构建了一个超过 45 万条数据的多模态 CAD 数据集 Omni-CAD,推进该领域的研究。文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
技术创新

1. 首个支持多模态输入的参数化 CAD 生成多模态大模型

我们提出了一个能够同时处理文本、图像和点云,最多三种模态输入数据的模型。图像和点云输入首先通过一个冻结的编码器提取特征,经投影层对齐到大语言模型(LLM)的特征空间。随后,将各种模态的特征进行整合,并利用低秩适应(LoRA)对 LLM 进行微调,实现基于多模态输入数据的精确 CAD 模型生成。
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
2. 首个多模态 CAD 数据集

为了支持模型训练,我们设计了一套全面的数据构造和标注管道,构建了包含 45 万条的多模态 CAD 模型数据集 Omni-CAD。每条数据包含对应的 CAD 模型构造命令序列,以及文本描述、8 个不同视角的图像(下图随机挑其中 4 个视角展示)以及点云数据,极大地填补了 CAD 多模态数据资源的空白,也有助于推动 CAD 生成领域的进一步发展。
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
3. 评估指标

在评估指标上,之前的工作更多聚焦在模型的重建质量和结构保真度上,而我们针对 CAD 模型的特性,基于最终生成的 CAD 模型的拓扑质量和空间封闭性,创新性地提出了四种量化指标。其中,Segment Error(SegE)检测 CAD 模型节点连接分段的准确性,Dangling Edge Length (DangEL) 评估悬边的比例来衡量生成模型流形的保真度,Self-Intersection Ratio (SIR) 检测生成模型中的自相交面问题。而 Flux Enclosure Error (FluxEE) 则通过高斯散度原理,计算常矢量场穿过生成表面的通量,评估模型的空间封闭性。

性能评估

1. 基于点云的 CAD 模型生成性能

我们与多个点云重建或者基于点云生成的基准工作进行比较,评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上,我们模型生成的 CAD 模型大多数生成结果都能保持严格的流形结构,没有出现悬边,具有较高的拓扑完整性。相比之下,基准模型在重建结果中往往存在许多悬空边缘(如图中蓝线所示)。
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
2. 鲁棒性测评

在基于点云生成 CAD 模型的比较实验中,我们针对两种受干扰的输入数据的情况进行了测评:添加噪声的点云数据及部分点缺失的点云数据。在从测试集中随机挑选的 1000 个样本上,使用 Chamfer Distance 来衡量生成结果,在两种情况下,CAD-MLLM 的性能均优于基线工作,特别是在一些极端条件下,依然展现出了良好的性能。
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
3. 多模态数据训练必要性测评

我们通过三个实际场景来展示多模态数据训练对于模型生成能力的辅助提升,1)裁剪的点云数据;2)带有噪声的点云数据;3)双视角图像输入。以上三种情况,单一模态数据的训练,会由于细节丢失或者视角限制使得输入信息的不准确,进而导致生成结果的不完整或者不精准,而加入完整的模型的文本描述,可有效弥补未观测到的部分,生成更为完整、精确的 CAD 模型。
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

相关专题

更多
edge是什么浏览器
edge是什么浏览器

Edge是一款由Microsoft开发的网页浏览器,是Windows 10操作系统中默认的浏览器,其目标是提供更快、更安全、更现代化的浏览器体验。本专题为大家提供edge浏览器相关的文章、下载、课程内容,供大家免费下载体验。

1369

2023.08.21

IE浏览器自动跳转EDGE如何恢复
IE浏览器自动跳转EDGE如何恢复

ie浏览器自动跳转edge的解决办法:1、更改默认浏览器设置;2、阻止edge浏览器的自动跳转;3、更改超链接的默认打开方式;4、禁用“快速网页查看器”;5、卸载edge浏览器;6、检查第三方插件或应用程序等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

377

2024.03.05

如何解决Edge打开但没有标题的问题
如何解决Edge打开但没有标题的问题

若 Microsoft Edge 浏览器打开后无标题(窗口空白或标题栏缺失),可尝试以下方法解决: 重启 Edge:关闭所有窗口,重新启动浏览器。 重置窗口布局:右击任务栏 Edge 图标 → 选择「最大化」或「还原」。 禁用扩展:进入 edge://extensions 临时关闭插件测试。 重置浏览器设置:前往 edge://settings/reset 恢复默认配置。 更新或重装 Edge:检查最新版本,或通过控制面板修复

906

2025.04.24

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

188

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

288

2023.10.25

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

923

2023.09.19

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

110

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2025

2024.08.16

菜鸟裹裹入口以及教程汇总
菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享,阅读专题下面的文章了解更多详细内容。

0

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 13.8万人学习

Node.js 教程
Node.js 教程

共57课时 | 9.1万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号