当FAIR1M遇上PaddleDetection 2.0-人工智能-PHP中文网

当FAIR1M遇上PaddleDetection 2.0

P粉084495128

发布： 2025-07-25 10:17:37

原创

734人浏览过

本文介绍将FAIR1M数据集与PaddleDetection 2.0结合的实践。先处理FAIR1M数据，解压后移除4张测试图，转为COCO格式；再安装PaddleDetection及旋转框算子，选用S2ANet模型，配置相关yml文件后训练，最后用测试图预测。训练有警告，预测角度有偏差，部分bug待修复。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

当fair1m遇上paddledetection 2.0 - php中文网

当FAIR1M遇上PaddleDetection 2.0

FAIR1M数据集1.0版本中包含了超过15000幅分辨率优于1米、尺寸从上千到上万像素不等的图像，其中包含了100多万精细化标注、具有任意角度分布的实例，场景覆盖全球上百个典型城市、乡镇，以及常用机场、港口等。同时根据遥感应用的实际需求，FAIR1M数据集将地物要素和典型目标进一步进行类型的细分。例如，依据型号将飞机细分为波音式（波音737、747、777和787等）、空客式（空客220、321、330和350等）以及国产式飞机（C919和ARJ21等）。目前已发布的FAIR1M数据集1.0版本中一共包含37个精细划分的类别。该数据集建设过程中得到了国家高分辨率对地观测系统重大科技专项支持，并于2021年2月被遴选为ISPRS科学创新项目（2021年度全球共7项），成为该协会高分辨率卫星图像目标识别研究的公开标准数据集。

数据地址：http://gaofen-challenge.com/

当FAIR1M遇上PaddleDetection 2.0 - php中文网

PaddleDetection飞桨目标检测开发套件，旨在帮助开发者更快更好地完成检测模型的组建、训练、优化及部署等全开发流程。PaddleDetection模块化地实现了多种主流目标检测算法，提供了丰富的数据增强策略、网络模块组件（如骨干网络）、损失函数等，并集成了模型压缩和跨平台高性能部署能力。目前PaddleDetection已经推出了最新的2.0版本，新增倾斜框的检测、高性价比的PPYOLO新品以及Anchor Free的SOTA模型PAFNet。

github：https://github.com/PaddlePaddle/PaddleDetection

gitee：https://gitee.com/paddlepaddle/PaddleDetection

0. 数据处理

0.1 解压数据集

解压数据集并且换个地方保存，方便自己管理文件。目前在官网下载的FAIR1M貌似只有part1，也就是1700多张图像，然后我看了一下找了四张不太一张的图像，作为我们结果的测试吧，我们把它们从训练数据中删除。

In [ ]

! unzip -oq /home/aistudio/data/data77871/FAIR1M.zip! mkdir -p datasets
! mv train/part1/images datasets
! mv train/part1/labelXmls datasets
! rm -rf train

登录后复制

In [ ]

# 移除用来测试的4张import os

img_path = 'datasets/images'xml_path = 'datasets/labelXmls'names = ['1054.tif', '1066.tif', '1131.tif', '1442.tif']for name in names:
    _img = os.path.join(img_path, name)
    _xml = os.path.join(xml_path, name.replace('.tif', '.xml'))    if os.path.exists(_img):
        os.remove(_img)    if os.path.exists(_xml):
        os.remove(_xml)print('ok')

登录后复制

0.2 转换为COCO数据集

由于这个数据集不是标准的VOC格式，然后PaddleDetection的旋转框需要COCO格式的数据集，因此需要想办法转到COCO的格式。因为平时几乎没怎么做检测的任务，那些格式也不太清楚，卡了一下。后来想到一个曲线救国的方法，就是DOTA数据提供了转为COCO的代码，而这个数据集和DOTA的内容有点像（虽然格式啥的完全也不一样）。于是我写了一个fair1m2dota先把数据转为DOTA的数据，再修改dota2coco以此得到需要的COCO数据格式。DOTA 数据集中实例是按照任意四边形标注，最后转换成[xc, yc, bow_w, bow_h, angle]的格式。

In [ ]

! pip -q install shapely# 转化为cocofrom fair1m2coco import func2

func2('datasets', 'datasets/train.json')

登录后复制

1. 安装所需

由于旋转框需要额外的算子，所以这里需要安装旋转框的额外算子。

Word-As-Image for Semantic Typography

文字变形艺术字、文字变形象形字

查看详情

In [ ]

# 克隆paddleDetection# ! git clone https://gitee.com/PaddlePaddle/PaddleDetection.git%cd PaddleDetection# 安装所需要的包! python setup.py install# 安装检测框所需要的算子%cd /home/aistudio/PaddleDetection/ppdet/ext_op
! python setup.py install# ! python test.py  # 测试算子

登录后复制

2. S2ANet

目前官方在旋转框上使用的模型为S2ANet模型。感觉除了论文也没多少人解读，检测不是特别懂，就不乱说细节了。

当FAIR1M遇上PaddleDetection 2.0 - php中文网

3. 开始训练

在configs中新建自己任务的yml，参考dota的yml，设置好数据路径、轮数等等什么的，就可以开始跑了。

s2anet_fair1m.yml：基本的yml；
s2anet_reader.yml：在base下面，这里我啥也没改，参考吖吖查大佬所述，batchsize大于1会报错，还在修复，所以我也保持的1；
s2anet.yml：在base下面，网络的一些设置，不太清楚也没怎么改，也就是设置下权重和num_classes；
s2anet_optimizer_1x.yml：在base下面，学习率和轮数什么的可以在这里设置；
runtime.yml：在上一级，这里可以设置保存间隔和路径等等；
dota.yml：在datasets下面，里面需要设置一下数据的路径，需要注意test的anno_path设置为训练的json，否则会使用COCO默认的标签。

然后据吖吖查大佬所述，加上eval会导致报错，所以这里也没有进行验证，只能通过loss来查看训练的如何。

In [ ]

%cd /home/aistudio
! mkdir -p /home/aistudio/log
%cd PaddleDetection
! python tools/train.py -c configs/dota/s2anet_fair1m.yml -o use_gpu=true --use_vdl=True --vdl_log_dir=/home/aistudio/log

登录后复制

有很多这样的警告，我感到莫名其妙，明明都跑起来了，还说框有问题。

ppdet.data.source.coco WARNING: Found an invalid bbox in annotations: im_id: 1318, area: 0.0 x1: -0.5, y1: 96.5, x2: 0.5, y2: 97.5.

登录后复制

训练结果如下：

ppdet.engine INFO: Epoch: [29] [1700/1728] learning_rate: 0.000001 fam_cls_loss: 0.082565 fam_reg_loss: 0.036638 odm_cls_loss: 0.090113 odm_reg_loss: 0.111688 loss: 0.352884 eta: 0:00:06 batch_cost: 0.2364 data_cost: 0.0001 ips: 4.2298 images/s

登录后复制

4. 图像预测

预测的图像不知为何tif就没办法了，只得将jpg的图像放在了test_img中，用于预测，结果都保留在output中。

In [3]

%cd /home/aistudio/PaddleDetection
! python tools/infer.py -c configs/dota/s2anet_fair1m.yml \
    -o weights=output/s2anet_fair1m/model_last.pdparams \
    --infer_dir=test_img \
    --draw_threshold=0.5 \
    --output_dir=output

登录后复制

这里显示一下，看看大概的效果。这个图太大了，这样压缩在里面看不太清，可以去output中找到对应的原图。

In [2]

import matplotlib.pyplot as pltimport cv2

%matplotlib inline

names = ['1054.jpg', '1066.jpg', '1131.jpg', '1442.jpg']
plt.figure(figsize=(20,20))for i, name in enumerate(names):
    img_path = '/home/aistudio/PaddleDetection/output/' + name
    img = cv2.cvtColor(cv2.imread(img_path), cv2.COLOR_BGR2RGB)
    plt.subplot(2, 2, (i + 1));plt.imshow(img)
plt.show()

登录后复制