近日,苹果公司正式推出了一款名为sharp(sharp monocular view synthesis)的开源ai模型。该技术仅需输入一张常规2d照片,即可在不足一秒的时间内构建出具备真实物理尺度、高度逼真的3d场景。相关研究以论文《sharp monocular view synthesis in less than a second》为题对外发布,并同步上线至github、hugging face以及苹果官方项目平台,迅速在开发者群体中掀起热议。

据苹果研发团队披露,SHARP通过一次神经网络前向传播,在普通GPU设备上即可高效推演出基于3D高斯点阵(3D Gaussian Splatting)的完整场景表达。该表达不仅精准复现原始图像的色彩分布与光照特性,还支持实时渲染,能够从邻近视角合成高分辨率、视觉自然连贯的新视角图像。更重要的是,其生成的3D结构具备度量一致性——即内置真实世界中的绝对尺寸信息,从而保障相机运动符合现实物理约束。

相较传统3D高斯重建方法往往需要数十乃至上百张多角度图像进行迭代优化,SHARP仅依赖单张输入图像便能完成高质量重建。这一能力源于模型在海量合成数据与真实影像上训练所得的深度感知与几何先验。具体而言,系统首先生成初始深度图,再融合学习到的场景结构规律,一次性预测出数百万个3D高斯点的空间位置、颜色值及协方差矩阵参数。不过当前版本仍聚焦于原视角周边区域的视图合成,在完全陌生或遮挡严重的场景区域尚不具备稳定重建能力。
以上就是苹果开源SHARP模型 单张2D照片秒级生成逼真3D场景的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号