0

0

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版

P粉084495128

P粉084495128

发布时间:2025-07-17 10:11:47

|

584人浏览过

|

来源于php中文网

原创

技术方向:表格文字检测,表格结构重建 使用了Paddlex的detection; 引用了Paddle segmentation 的Unet结构,自定义训练 同花顺-文档图片表格结构识别算法方。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

1、比赛介绍

  • 整体背景

表格作为一种高效的数据组织与展现方法被广泛应用,已成为各类文档中最常见的页面对象。目前很大一部分文档以图片的形式存在,无法直接获取表格信息。人工还原表格既费时又容易出错,因此如何自动并准确地从文档图片中识别出表格成为一个亟待解决的问题。但由于表格大小、种类与样式的复杂多样(例如表格中存在不同的背景填充、不同的行列合并方法、不同的分割线类型等),导致表格识别一直是文档识别领域的研究难点。

本赛题专注于表格结构识别,为选手提供了已标注的表格图片数据,需要选手通过深度学习的方法,识别出表格结构并输出。

  • 赛题任务

选手需要训练模型并准确还原出表格结构信息。

训练数据主要包括原始图片及对应的ground truth,ground truth内包含表格位置信息和单元格信息。选手可以直接使用ground truth内的表格位置信息,也可以使用自己预测的表格位置信息。在得到表格区域的基础上,选手需要将表格的结构识别出来,输出单元格的行列结构信息及单元格内的文字位置信息。

  • 数据说明

数据量

640张训练集、106张测试集A、108张测试集B及其对应的ground truth(xml文件)

数据来源

各大公司财报的扫描件图片、评级报告图片

ground truth字段说明:

  1. table:表格,包含表格位置信息及该表格内的单元格信息。points字段为“x0, y0 x1, y1 x2,y2 x3, y3”格式,表示表格区域的四个角点,角点顺序不固定

  2. cell:单元格,包含行列信息及位置信息

start_col、end_col、start_row、end_row:单元格所处的行列信息

points:单元格内文本的位置信息,格式为“x0, y0 x1, y1 x2,y2 x3, y3”,表示文本区域的四个角点,角点顺序不固定;当单元格内存在多行文本时,取所有文本的最小外包矩形作为文本区域

  1. ground truth示例如下:

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

  • 评测标准

a. 总体概括评测标准

  1. 单元格F1

b. 评价指标计算流程

  1. 计算预测的表格内的单元格的相邻关系,假设所有预测的表格内的单元格相邻关系的总数为S

参考论文:

《A Methodology for Evaluating Algorithms for Table Understanding in PDF Documents》

  1. 将预测的表格区域与ground truth中的表格区域进行映射,取IOU大于0.8的表格区域作为预测正确的表格区域,其余作为预测错误的表格区域

  2. 在正确的表格区域内,将预测的单元格内的文本区域与ground truth中的单元格文本区域进行映射,取IOU的阈值为0.5和0.6;当单元格内存在多行文本时,所有文本的最小外包矩形作为文本区域,参考下图:【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网 【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

2、官方baseline介绍

导航链接

  • 思路简介:
  1. 分为两个模型,一个为文字定位模型,另一个是表格结构分析模型。
  2. 文字定位方案是CRAFT: Character-Region Awareness For Text detection,论文,采用VGG16做文字定位。原方案中直接拿来用,全图检测文字,在此不做过多描述。
  3. 表格可以通过xml文件获取边界框,不需要检测
  4. 表格结构分析基于unet语义分割模型来做,生成两个图层,分别是表格的横向线和纵向线(有线表格和无线表格都按照有线处理)。拼接进行展示,从左到右依次是横向线、纵向线、表格图像,效果如下:【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

  1. 分割完成后,表格被横纵线条阶段,用opencv找矩形,还原行列结构,形成cell列表,示意图如下:

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

  1. 以cell为单位,遍历每个文字对象的中心点是否落在本cell中,若中心点在cell中,将四个角点坐标都加入列表L,遍历完成后,取L中所有点的最小外接矩形作为文本框的坐标框

3、比赛解题思路的探讨

表格结构化这一任务,在研究领域依然充满了挑战,并未出现一个算法或一套框架一统江湖。结合本比赛,简要进行难点剖析,提出改进思路 当前所有表格结构化方法大体都可分为三步走:

  1. 提取行列特征
  2. 提取文字内容
  3. 重构表格结构

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

在此框架下,具有不同的技术方案,例如:

百度OCR表格识别的技术方案:单行文本检测-DB,单行文本识别-CRNN,表格结构和cell坐标预测-RARE

AI小聚
AI小聚

一站式多功能AIGC创作平台,支持AI绘画、AI视频、AI聊天、AI音乐

下载

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

海康威视OCR/表格识别方案: 图像经过CNN提取特征后分成两路,一路类似于Mask RCNN的形式用来检测非空单元格叫LPMA,另一个头全局学习整张图上的非空单元格的水平和垂直对齐的soft mask叫GPMA

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

腾讯的解决方案:Unet做语义分割,线段合并,矫正等后处理,文字识别,文字定位,对齐【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

GFTE:Graph-based Financial Table Extraction图神经网络方案:单元格上构建无向图G = <V,RC>;使用基于GCN的算法来预测相邻关系,包括垂直和水平关系来预测【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

本解决方案属于基于语义分割的模式进行预测

4、赛题难点分析与应对策略

  1. 数据标签获取
  • 通过手绘的方式来获取;

优点:准确;缺点:耗时 1300+表格,标注需30小时+

  • 代码方式获取,例如官方文档中mask逻辑:

(1)获取未被合并的单元格,提取其中文字坐标框

(2)将每一列所有坐标框形成一个集合,求其外接矩形

(3)所得矩形之间的区域,划分为表格线

优点:快速;缺点:对错切、错标注、整行整列合并的情况,无法正常生成标注,如下图第一列漏标:【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

无法得到优质的样本库,漏标多,仅能处理无单元格合并的简单表格

  1. 语义分割网络与本任务目标存在差距

表格结构化,目标是得到包含行列的结构化数据,而语义分割的结果是基于像素的栅格数据,是非结构化的,语义分割的结果转换为表格结构存在着语义鸿沟,简单的形状提取难以很好的完成此任务。例如下图:【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

在识别情况尚可的情况下,左侧小块的误识别区域将对整个表格结构产生极大的影像(五列变为六列),而这种情况是无法被处理的

应对策略:

  1. 人工数据清洗

对数据进行可视化后人工判读,花费三小时,清洗出以下有问题的数据:

【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

  1. 确保子样本库正确,迁移到大样本库中

先把简单的表格找出来,形成高质量的子样本库,训练模型1

模型1预测复杂结构的表格,生成伪标签,与原代码生成标签叠加,补漏

  1. 采用二次识别的模式剔除误识别区域;或探索图神经网络在表格误识别中的应用

本人才疏学浅,GCN没做过=。=

5、本项目所做的工作

  1. 替换CRAFT,使用ppyplov2定位文字
  2. 自定义数据集,paddlesegAPI实现Une-tattention实现语义分割,代替pytorch版本
  3. 数据预处理等工作,可完整的实现从数据到提交文件的全流程

6、代码实现

准备环境、数据、训练预测等代码 代码简洁,已配置好,一键运行

In [ ]
# 解压数据集,data/data133551/data.zip为原版数据集,已划分为训练集验证集,后期训练可再调整!unzip -oq data/data133551/data.zip -d work/# data/data133260/data.zip为预处理数据集,只有表格数据,已转化为icdar格式,可直接用paddle——ocr套件训练
In [ ]
# 安装环境!pip install paddleseg
!pip install paddlex
%cd work/
In [ ]
# 训练分割模型!python seg_train.py

预测生成提交结果

使用预训练的目标检测模型与分割模型完成预测(训练过程未包含在项目)

  • 预训练模型目标检测效果【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版 - php中文网

所有步骤都集成在pre.py中

运行pre.py,结果保存在opt中

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

47

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

90

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

226

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

504

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

170

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

286

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号