上海人工智能实验室 opendatalab 团队近日正式推出 mineru2.5 技术白皮书,全面介绍其模型结构、训练方法、数据处理流程及多项评测表现。
MinerU2.5 是一款具备 12 亿参数的解耦式视觉-语言模型,专为高分辨率文档理解而设计。项目团队同步上线了官方 Demo,用户可在线体验其强大功能。

该模型采用创新的两阶段解析机制:第一阶段对降采样图像进行整体版面布局分析;第二阶段则在原始分辨率下,针对局部区域实现文本、数学公式与表格的精细化识别。这一架构在 OmniDocBench 等多个权威基准测试中均达到领先水平(SOTA),同时兼顾高效推理与较低计算资源消耗。


MinerU2.5 能够精准保留页眉、页脚和页码等页面装饰性元素,并进一步优化了对列表项、参考文献、代码段等结构的标注精度。此外,模型支持复杂长公式解析,兼容中英文混合排版的数学表达式,并可准确识别旋转排布、无边框或部分边框的表格结构。
开源项目:https://www.php.cn/link/918b71f2ac42210cfae2f82b777c1f27 开源模型:https://www.php.cn/link/607f81b73375b618f549c6c8692c4e88 在线使用:https://www.php.cn/link/4612cc4ffdf8a7dbd4174702b9b22afd
源码地址:点击下载
以上就是OpenDataLab 发布文档解析视觉-语言模型 MinerU2.5 技术报告的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号