Monodepth2-基于自监督学习的单目深度估计模型

P粉084495128

发布时间：2025-07-22 11:08:36

287人浏览过

来源于php中文网

原创

Monodepth2是ICCV2019发表的自监督单目深度估计方法，为Monodepth升级版。其结合双目图像与单目序列自监督方法，含深度预测和位姿变换预测网络，引入多种优化策略获当时SOTA。本文介绍其复现过程，用KITTI数据集，经640x192训练及1024x320微调，abs_rel达0.104，还含数据集、代码结构等信息。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

monodepth2-基于自监督学习的单目深度估计模型 - php中文网

1. 简介

Monodepth2是通过自监督学习进行单目深度估计的一种方法，发表于ICCV2019，是发表于CVPR2017的Monodepth的升级版。Monodepth基于标定过的双目图像，通过预测中间变量disparity(视差)来对一侧图像进行变换重构另一侧图像，并以重构损失进行训练,有关Monodepth的复现可以参考我的另一个项目。

Monodepth2-基于自监督学习的单目深度估计模型 - php中文网

Monodepth2在此基础上加入了比较流行的单目序列自监督方法，即通过预测单目相邻帧之间的位姿变换与深度图来重构相邻帧。Monodepth2将两种训练方式统一到了基于一个位姿变换的框架下，上图为其的框架结构及针对部分问题的改进。框架中包含两个网络，一个是深度预测网络，给定一张图片，预测深度图，这个也是我们最后想得到的网络；另一个是位姿变换预测网络，给定一对图片，预测两者之间的位姿变换，一般给定的是相邻的前后两帧，此网络用于辅助训练；训练时选取左相机某一帧作为基准，计算深度图，其前后两帧及右相机同帧图像进行作为参考，计算位姿变换（右相机位姿变换为常数，不需要进行预测），利用预测得到的深度图将基准图像变换为点云、进行位姿变换、再重投影得到重构图像计算重构损失。

除此之外，Monodepth2引入了一些新trick来提升性能：

使用resnet预训练模型，极为显著地提升性能。
对于每个像素点，计算由不同视角进行重构所产生误差的最小值作为loss，使得loss对于受遮挡的物体更加鲁棒。
将不同尺度的视差图resize到原始尺寸对原图进行，显著降低了深度图中不合理的纹理特性。
自动mask掉会动的物体，使得收到监督的像素都满足静态场景的假设。

综合这些trick，Monodepth2得到了当时自监督深度估计的SOTA效果，但仍然与监督方法有着一定差距。

以下为本项目模型在KITTI测试图像上的预测结果：

Monodepth2-基于自监督学习的单目深度估计模型 - php中文网

论文: Digging Into Self-Supervised Monocular Depth Estimation

AIBox 一站式AI创作平台

AIBox365一站式AI创作平台，支持ChatGPT、GPT4、Claue3、Gemini、Midjourney等国内外大模型

下载

参考repo: monodepth2

2. 数据集

KITTI是一个自动驾驶领域常用的数据集，其由配置了传感器的汽车于德国卡尔斯鲁厄采集，数据中包含了双目彩色图像、深度图像、雷达点云等传感数据，并提供目标检测、实例分割等常见CV任务的标签。本项目使用AI Studio上的KITTI压缩数据集，全部数据可从此处下载。在训练过程中只需要双目图像，所以只解压jpg_images.tar.*即可。

KITTI数据集存在两种划分，一种是官方标准划分，称为KITTI划分，另一种是Eigen et. al.提出的Eigen划分方式。领域内更常用Eigen划分进行评估。由于在评估时需要点云数据来计算深度图的groundtruth，解压全部点云数据集占用硬盘空间过大，我们对Eigen划分的测试集进行了单独的打包，可在此处下载。

3. 复现精度

首先训练输入分辨率为640x192的模型：加载resnet18预训练模型，batch size 12，epoch 20，优化器Adam，初始学习率1e-4，15个epoch后减小为1e-5。原文和仓库并没有提供最优模型的选择方法，我们保存验证集loss最低的模型为最优模型。此时得到的最优模型abs_rel为0.109，未达到验收精度。

之后将以640x192为输入分辨率的最优模型在1024x320的输入分辨率上进行finetune，batch size 4，epoch 2，优化器Adam，学习率5e-5。得到的模型abs_rel为0.104，达到验收标准。

注意：为了固定数据增强的随机性，项目中使用setup_seed对Dataloader中的所有worker进行了初始化，这就导致了结果是和worker的数量相关的，想要完全复现项目中的结果，第一部分训练的num_workers=16，第二部分训练的num_workers=4。

	abs_rel	sq_rel	rms	log_rms	a1	a2	a3
640 x 192 原文精度	0.106	0.818	4.750	0.196	0.874	0.957	0.979
1024 x 320 原文精度	0.106	0.806	4.630	0.193	0.876	0.958	0.980
640 x 192 复现精度	0.109	0.880	4.903	0.200	0.868	0.955	0.979
1024 x 320 复现精度	0.104	0.798	4.619	0.192	0.879	0.958	0.980

训练日志链接：640x192 train log, 1024x320 finetune log, 640x192 test log, 1024x320 test log

权重文件链接：pytorch resent18 pretrained weight, our best 640x192 weights, our best 1024x320 weights

4. 快速开始

Step 1：准备数据

In [1]

!cat ~/data/data15348/jpg_images.tar.* | tar -x -C ~/data/
!rm ~/data/data15348/jpg_images.tar.*

In [2]

!tar -xzf ~/data/data124124009/eigen_test.tgz -C ~/data

Step 2：配置环境

In [3]

%cd /home/aistudio/work/monodepth2-paddle
!pip install -r requirements.txt

Step 3：训练

In [ ]

    # train the model at resolution of 640 x 192
    !python train.py --model_name mono+stereo_model_640x192 --frame_ids 0 -1 1 --use_stereo --data_path ~/data/kitti \
        --log_dir logs --num_workers 4 --weights_init weights/resnet18-pytorch

In [7]

# finetune the best 640 x 192 model at resolution of 1024 x 320!python train.py --model_name mono+stereo_model_1024x320 --frame_ids 0 -1 1 --use_stereo --data_path ~/data/kitti \
    --height 320 --width 1024  --load_weights_folder weights/best_640x192/ \
    --log_dir logs --num_workers 4 --batch_size 4 --num_epochs 2 --learning_rate 5e-5

In [11]

!python evaluate_depth.py --load_weights_folder weights/best_1024x320/ --eval_stereo --data_path ~/data/eigen --num_workers 4

In [ ]

!python demo.py --image_path assets/test_image.jpg --load_weights_folder weights/best_1024x320/

5. 代码结构

├── assets # demo图像├── datasets # 数据集定义├── logs # 日志文件夹├── network # 网络定义├── splits # 数据集数据划分文件├── weights # 存放权重文件├── LICENSE
├── README.md
├── demo.py # 单张图像深度估计脚本├── evalute_depth.py # 测试脚本├── export_gt_depth.py # 计算groundtruth├── kitti_utils.py # 与KITTI数据集相关的功能函数├── layers.py # 基础模块定义├── options.py # 超参数定义├── trainer.py # 训练方式定义├── train.py # 训练入口脚本├── requirements.txt # 依赖包└── utils.py # 功能函数

6. 复现心得

paddle.grid_sample的反向传播存在Bug，当grid.stop_gradient=False时，x.stop_gradient必须为False，否则会报错，已提交PaddlePaddle issue。
Paddle Hub中的Resnet预训练参数与PyTorch Hub的不同，使用Paddle的预训练参数在640x192上训练最好只能达到0.113，加载PyTorch的预训练模型可达到0.109。

ChatGPT生成Python代码怎么提问_提示写法是什么【教程】

OpenClaw集成其他工具_OpenClaw集成使用方法【方法】

QClaw能不能帮我下载B站视频_QClaw资源下载技能与指令输入【解答】

Cursor支持哪些语言开发_Cursor编程能力介绍【介绍】

OpenClaw报告生成_OpenClaw报告功能详解【详解】

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04