ScienceMetaBench 开源：科学文献元数据提取评测基准

心靈之曲

发布时间：2026-01-23 21:52:12

272人浏览过

来源于php中文网

原创

上海人工智能实验室 opendatalab 团队正式推出 sciencemetabench 科学文献元数据提取评测基准，该基准致力于构建公平、一致的评估体系，为学术界与工业界提供可复现、可对比的性能衡量依据，推动元数据提取技术的持续演进。

数据集地址：https://www.php.cn/link/918d2d39616621eedbe76248d1e3abcb
评测工具代码 (Dingo)：https://www.php.cn/link/2ab507032a57dc82c268ea84eeecab35

据悉，ScienceMetaBench 聚焦于科学文献 PDF 中结构化元信息的精准识别与抽取能力评估，覆盖三大主流文档类型：学术论文（Paper）、教科书（Textbook）及电子书（Ebook）。在构建过程中，团队特别强化了对中英文双语场景的支持，从文本识别、字段解析到语义对齐均实现语种自适应，保障元数据提取结果与原文语言高度一致。

下图展示了从学术论文 PDF 首页中成功抽取的元数据字段实例：

ScienceMetaBench 开源：科学文献元数据提取评测基准

需从论文首页准确提取以下核心字段：{

银河易创

一站式AIGC创作平台，集成GPT-3.5、GPT-4、文心一言等对话模型、Midjourney、DallE等绘画工具、AI音乐、AI视频和AI PPT等功能！

下载

"sha256": "8d3e...f3a", // 文件级唯一哈希值，支撑数据溯源与版本管理`` "doi": "10.1186/s41038-017-0090-z", // 国际数字对象标识符`` "title": "Children are not little adults...", // 文献标题（保留原始大小写与标点）`` "author": "Tina L. Palmieri, ...", // 作者列表，统一采用英文逗号分隔格式`` "keyword": "Blood transfusion, Pediatric", // 关键词集合，同样以英文逗号分隔`` "abstract": "Blood transfusion in burns larger than...", // 完整摘要文本（不含冗余符号或页眉页脚）`` "pub_time": "2017" // 标准化出版年份（仅保留四位数字）``}

为增强样本多样性与现实鲁棒性，研究团队融合多源异构PDF数据采集策略，并引入 K-Means 图像聚类方法对页面布局进行无监督分组，有效覆盖从紧凑单栏到复杂多栏、含图表/公式/多语言混排等典型困难案例。标注流程采用“大模型预标注 + 领域专家人工校验”的协同范式，并严格对标 OmniDocBench（MinerU 评测所采用的权威基准），确保标注规范性、字段完整性与评测维度的前沿性。

源码地址：点击下载

微软：Windows 11 正在进化为“AI 原生”操作系统

微软公布 Office 新版图标“废案”：采用渐变色，形态更大胆

商务部公告附件首次改为 WPS 格式，金山软件股价一度暴涨 18%

Claude 支持“创建与编辑”真正文件

OC Auto-POC 开源，一键搞定 OS 深度测试

相关标签:

word git go github 人工智能工具 pdf 多语言大模型上海标识符对象 github https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：FlightGear 2024.1.4 发布，开源飞行仿真器下一篇：OpenAI 已敲定广告商名单，并在广告上线前公布关键细节

作者最新文章

如何在 InDesign 中精准定位关键词所在的全部页码

2026-03-09 16:38

vscode一行代码太长怎么办

2026-03-09 16:51

细节揭晓《守望先锋》尼尔联动皮肤概念设计图公布

2026-03-09 16:52

Epic喜加一：生存射击游戏《突袭：幸存者》免费领取

2026-03-09 17:09

如何在 Go 程序中执行 CLI 命令（如 gulp 任务）

2026-03-09 17:10

如何在 Go 网络爬虫中合理嵌入结构化日志？

2026-03-09 17:13

vscode怎么选中一个字段

2026-03-09 17:15

CKEditor 5 中 CKEDITOR.replace() 报错的解决方案

2026-03-09 17:24

CSS 动画边框在 Firefox 中失效的完整解决方案

2026-03-09 17:28

Go语言中如何在switch语句中动态创建满足接口的接收者实例

2026-03-09 17:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法：1、检查标识符是否被其他表或数据库使用；2、检查标识符是否包含特殊字符；3、使用引号包裹标识符；4、使用反引号包裹标识符；5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

209

2023.12.04

Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

322

2024.02.23

java标识符合集

本专题整合了java标识符相关内容，想了解更多详细内容，请阅读下面的文章。

292

2025.06.11

c++标识符介绍

本专题整合了c++标识符相关内容，阅读专题下面的文章了解更多详细内容。

177

2025.08.07

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4071

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2903

2024.08.16

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板