PaddleSeg：使用Transformer模型对航空遥感图像分割

P粉084495128

发布时间：2025-07-17 10:30:54

825人浏览过

来源于php中文网

原创

本项目借助PaddleSeg模块训练Transformer类的Segformer_b3语义分割模型，为航空遥感图像特征点匹配提供语义约束以提升三维重建精度。使用UDD6数据集，经裁剪处理后训练，40000次迭代耗时12小时，mIOU达74.50%，较原论文DeepLabV3+高1.32%。模型可对指定图像预测，结果存于指定文件夹，能助力提升SfM三维重建精度与速度。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

paddleseg：使用transformer模型对航空遥感图像分割 - php中文网

PaddleSeg：使用Transfomer模型对航空遥感图像分割，给特征点匹配提供语义约束

一、项目背景

SfM（Structure from motion）是一种三维重建的方法，用于从motion中实现3D重建。也就是从时间系列的2D图像中推算3D信息。但SfM算法受传统特征检测方法精度的限制，尤其是在复杂场景中
语义分割领域发展迅速，现在可以达到比较高的mIOU，可以考虑使用语义分割模型提取待匹配图像的语义信息，给特征点匹配提供语义约束，提高最后三维重建的精度
《Large-Scale Structure from Motion with Semantic Constraints of Aerial Images》论文就是介绍了这种方法，该论文使用语义约束进行三维点云的重建，精度提高的同时速度也变快了

ModelGate
一站式AI模型管理与调用工具

下载
本项目利用PaddleSeg模块训练Transfomer类的语义分割模型，在UDD数据集中mIOU达到74.50% ，原论文使用DeepLabV3+的mIOU为73.18%，高1.32%

二、数据集介绍

UDD数据集是北京大学图形与交互实验室采集并标注的，面向航拍场景理解、重建的数据集。

Benchmark

dataset	model	OA	mIoU	size
UDD5	GCN	88.57%	73.17%	302M
UDD5	ENet	88.14%	71.38%	5.5M
UDD6	GCN	86.54%	72.58%	302M
UDD6	ENet	85.20%	69.44%	5.5M
UDD6	DeepLab V3+	86.90%	73.18%	721M

该数据集包含以下类别：
- UDD6 (Released on 28 Jun 2020)

Class	Gt Label	RGB
Other	0	(0,0,0)
Facade	1	(102,102,156)
Road	2	(128,64,128)
Vegetation	3	(107,142,35)
Vehicle	4	(0,0,142)
Roof	5	(70,70,70)

数据示例

三、准备工作

开始训练前需要克隆仓库，然后准备数据，最后安装依赖
注意：UDD6，图像大小为 (4096, 2160) 所以训练之前先进行crop处理成(1024, 1024)小块的图像以减少IO的占用

In [4]

# clone PaddleSeg的项目!git clone https://gitee.com/paddlepaddle/PaddleSeg

正克隆到 'PaddleSeg'...
remote: Enumerating objects: 16439, done.
remote: Counting objects: 100% (1402/1402), done.
remote: Compressing objects: 100% (811/811), done.
remote: Total 16439 (delta 710), reused 1166 (delta 573), pack-reused 15037
接收对象中: 100% (16439/16439), 341.09 MiB | 4.75 MiB/s, 完成.
处理 delta 中: 100% (10574/10574), 完成.
检查连接... 完成。

In [1]

#解压数据集，有两个数据集，本项目使用UDD6!mkdir work/UDD6
!unzip -oq data/data75675/UDD6.zip -d work/UDD6/

In [2]

# 对数据进行crop，具体细节可查看process_data.py的代码%cd work/
!python process_data.py --tag val #处理验证集!python process_data.py --tag train #处理训练集

/home/aistudio/work
mkdir UDD6/val_sub ...
[>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] 35/35, 6.0 task/s, elapsed: 6s, ETA:     0sAll processes done.
mkdir UDD6/val_labels_sub ...
[>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] 35/35, 25.0 task/s, elapsed: 1s, ETA:     0sAll processes done.
mkdir UDD6/train_sub ...
[>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] 106/106, 6.0 task/s, elapsed: 18s, ETA:     0sAll processes done.
mkdir UDD6/train_labels_sub ...
[>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] 106/106, 26.4 task/s, elapsed: 4s, ETA:     0sAll processes done.

In [ ]

# 安装依赖%cd /home/aistudio/PaddleSeg
!pip install  -r requirements.txt

In [ ]

# 训练数据集txt生成!python tools/split_dataset_list.py \
        ../work/UDD6 train_sub train_labels_sub \
        --split 1.0 0.0 0.0 \
        --format JPG png \
        --label_class Other Facade Road Vegetation Vehicle Roof

In [8]

!mv ../work/UDD6/train.txt ../work/UDD6/train_true.txt # 修改文件名

In [ ]

# 验证数据集txt生成!python tools/split_dataset_list.py \
        ../work/UDD6 val_sub val_labels_sub \
        --split 0.0 1.0 0.0 \
        --format JPG png \
        --label_class Other Facade Road Vegetation Vehicle Roof

In [10]

!rm ../work/UDD6/train.txt #删除第二次运行生成的train.txt!mv ../work/UDD6/train_true.txt ../work/UDD6/train.txt # 将文件名改回来

四、模型训练与预测

使用的模型为Transfomer系列的Segformer_b3
训练40000次迭代，共12个小时

In [25]

# 新建.yml文件，然后将以下信息写入#!touch configs/segformer_b3_UDD.yml# 也可以直接复制准备好的文件放入该文件夹下!cp ../work/segformer_b3_UDD.yml configs/

在文件中插入以下信息

batch_size: 2iters: 40000train_dataset:
  type: Dataset
  dataset_root: ../work/UDD6/
  train_path: ../work/UDD6/train.txt
  num_classes: 6
  transforms:
    - type: ResizeStepScaling
      min_scale_factor: 0.5
      max_scale_factor: 2.0
      scale_step_size: 0.25
    - type: RandomPaddingCrop
      crop_size: [1024, 1024]    - type: RandomHorizontalFlip
    - type: RandomDistort
      brightness_range: 0.4
      contrast_range: 0.4
      saturation_range: 0.4
    - type: Normalize
  mode: trainval_dataset:
  type: Dataset
  dataset_root: ../work/UDD6/
  val_path: ../work/UDD6/val.txt
  num_classes: 6
  transforms:
    - type: Normalize
  mode: valmodel:
  type: SegFormer_B3
  num_classes: 6
  pretrained: https://bj.bcebos.com/paddleseg/dygraph/mix_vision_transformer_b3.tar.gzoptimizer:
    type: sgdlr_scheduler:
  type: PolynomialDecay
  learning_rate: 0.001
  power: 0.9loss:
  types:
    - type: CrossEntropyLoss
  coef: [1]

In [ ]

# 开始训练，模型权重保存在output文件夹中，output/best_model 文件夹中为性能最好的模型!export CUDA_VISIBLE_DEVICES=0 # 设置1张可用的卡# windows下请执行以下命令# set CUDA_VISIBLE_DEVICES=0!python train.py \
       --config configs/segformer_b3_UDD.yml \
       --do_eval \
       --use_vdl \
       --save_interval 500 \
       --save_dir output

模型预测
- 整体结果：Acc：87.46%，mIOU：74.50%
- 每一类别结果：IOU：[0.8912 0.7263 0.6874 0.6746 0.8854 0.6053]， Acc：[0.944 0.8343 0.8223 0.807 0.9314 0.7634]

In [ ]

!python val.py \
       --config configs/segformer_b3_UDD.yml \
       --model_path output/best_model/model.pdparams \

代码解释

五、快速使用

已经将性能最好的模型以及.yml文件放在work文件夹下
运行以下命令可对指定的文件夹下的图像进行预测
本项目以work/val文件夹下的图像作为待预测的图像,预测结果保存在work/val/result文件夹中

In [12]

!mv ../work/UDD6/val ../work/

In [ ]

!python predict.py \
       --config ../work/segformer_b3_UDD.yml \
       --model_path ../work/best_model/model.pdparams \
       --image_path ../work/val/src \
       --save_dir ../work/val/result \
       --is_slide \
       --crop_size 1024 1024 \
       --stride 512 512

In [16]

# 展示预测的结果import matplotlib.pyplot as pltfrom PIL import Image

output = Image.open(r"../work/val/result/added_prediction/000061.JPG")

plt.figure(figsize=(20,24))#设置窗口大小plt.imshow(output), plt.axis('off')

(<matplotlib.image.AxesImage at 0x7f2bdae02710>, (-0.5, 4095.5, 2159.5, -0.5))

<Figure size 1440x1728 with 1 Axes>

ChatGPT生成Python代码怎么提问_提示写法是什么【教程】

OpenClaw集成其他工具_OpenClaw集成使用方法【方法】

QClaw能不能帮我下载B站视频_QClaw资源下载技能与指令输入【解答】

Cursor支持哪些语言开发_Cursor编程能力介绍【介绍】

OpenClaw报告生成_OpenClaw报告功能详解【详解】

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04