上海人工智能实验室 opendatalab 团队正式推出 sciencemetabench 科学文献元数据提取评测基准,该基准致力于构建公平、一致的评估体系,为学术界与工业界提供可复现、可对比的性能衡量依据,推动元数据提取技术的持续演进。
数据集地址:https://www.php.cn/link/918d2d39616621eedbe76248d1e3abcb
评测工具代码 (Dingo):https://www.php.cn/link/2ab507032a57dc82c268ea84eeecab35
据悉,ScienceMetaBench 聚焦于科学文献 PDF 中结构化元信息的精准识别与抽取能力评估,覆盖三大主流文档类型:学术论文(Paper)、教科书(Textbook)及电子书(Ebook)。在构建过程中,团队特别强化了对中英文双语场景的支持,从文本识别、字段解析到语义对齐均实现语种自适应,保障元数据提取结果与原文语言高度一致。
下图展示了从学术论文 PDF 首页中成功抽取的元数据字段实例:

需从论文首页准确提取以下核心字段:{
"sha256": "8d3e...f3a", // 文件级唯一哈希值,支撑数据溯源与版本管理`` "doi": "10.1186/s41038-017-0090-z", // 国际数字对象标识符`` "title": "Children are not little adults...", // 文献标题(保留原始大小写与标点)`` "author": "Tina L. Palmieri, ...", // 作者列表,统一采用英文逗号分隔格式`` "keyword": "Blood transfusion, Pediatric", // 关键词集合,同样以英文逗号分隔`` "abstract": "Blood transfusion in burns larger than...", // 完整摘要文本(不含冗余符号或页眉页脚)`` "pub_time": "2017" // 标准化出版年份(仅保留四位数字)``}
为增强样本多样性与现实鲁棒性,研究团队融合多源异构PDF数据采集策略,并引入 K-Means 图像聚类方法对页面布局进行无监督分组,有效覆盖从紧凑单栏到复杂多栏、含图表/公式/多语言混排等典型困难案例。标注流程采用“大模型预标注 + 领域专家人工校验”的协同范式,并严格对标 OmniDocBench(MinerU 评测所采用的权威基准),确保标注规范性、字段完整性与评测维度的前沿性。
源码地址:点击下载










