大模型全军覆没，中科院自动化所推出多图数学推理新基准

爱谁谁

发布时间：2025-03-11 19:16:32

510人浏览过

来源于laoyaoba

转载

近日，中国科学院自动化研究所推出多图数学推理全新基准mv-math（该工作已被cvpr 2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估mllm（多模态大语言模型）在多视觉场景中的数学推理能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

结果评估下来发现，GPT-4o仅得分32.1，类o1模型QvQ得分29.3，所有模型均不及格。

给大模型数学推理上难度

截止目前，多模态大模型在数学推理领域展现出了巨大的潜力。

然而，现有的多模态数学基准测试大多局限于单一视觉场景（单图推理），这与现实世界中复杂的多视觉数学应用（多图推理）相去甚远。

基于这一情况，多图数学推理数据集MV-MATH应运而生。MV-MATH包含2009个高质量数学问题，涵盖了从K-12教育场景中提取的真实问题。

每个问题都结合了多个图像和文本，形成了图文交错的多视觉场景。

这些问题分为选择题、填空题和多步问答题三种类型，覆盖了11个数学领域，包括解析几何、代数、度量几何、组合学、变换几何、逻辑、立体几何、算术、组合几何、描述性几何和统计学，并分为三个难度级别。

大模型全军覆没，中科院自动化所推出多图数学推理新基准

下图展示了MV-MATH与现有数据集的对比以及分布情况：

（a）与现有数学基准的比较（圆圈大小代表图片数量）；（b）每个问题的长度分布；（c）每个问题的图像数量分布。

大模型全军覆没，中科院自动化所推出多图数学推理新基准

数据集特点

（1）多视觉场景

MV-MATH数据集中的每个问题都包含多个图像（2-8个图片），这些图像与文本交织在一起，形成了复杂的多视觉场景。

MV-MATH中的每个问题都是从真实的K-12场景中收集而来，这种设计更接近于现实世界中的数学问题，能够更好地评估MLLM在处理多视觉信息时的推理能力。

（2）丰富的标注

为了确保数据集的质量和可靠性，每个样本都经过了至少两名标注者的交叉验证。标注内容包括问题、答案、详细分析以及图像关联性，为模型评估提供了详细的信息。

（3）多样化的数学领域

MV-MATH涵盖了从基础算术到高级几何的11个数学领域，并根据详细答案的长度划分为3个难度等级，能够全面评估MLLM在不同数学领域的推理能力。

（4）图像关联性

MV-MATH首次引入图像相关性这一特征标签，根据据图像是否相关，数据集被分为两个子集：相互依赖集（Mutually Dependent Set，MD）和独立集（Independent Set，ID）。

大模型全军覆没，中科院自动化所推出多图数学推理新基准

在MD子集中，图像之间相互关联，理解一个图像需要参考其他图像；而在ID子集中，图像之间相互独立，可以单独解释。

例如，下图中前两个题目属于相互依赖集，最后一个为题目属于独立集。

多图推理综合评估

Pixso AI

Pixso AI是一款智能生成设计稿工具，通过AI一键实现文本输入到设计稿生成。

下载

研究团队在MV-MATH上进行了广泛的实验，评测了24个主流开源和闭源多模态大模型。

实验结果表明，即使是最先进的MLLM在多视觉数学任务中也面临着巨大的挑战，其表现与人类能力之间存在显著差距。

大模型全军覆没，中科院自动化所推出多图数学推理新基准

从模型总体表现来看，在MV-MATH数据集上，表现最好的模型是Claude-3.5，其整体准确率为33.9%，远低于人类水平（76.5%）。

其他表现较好的模型还包括GPT-4o（32.1%）、Gemini-1.5-Pro（29.1%）和Qwen-vl-max（26.9%）。

值得注意的是，开源模型LLaVA-OneVision-Chat-72B取得了26.2%的准确率，仅次于Qwen-vl-max。类o1模型QVQ-72B-Preview性能为29.3%，仅次于GPT-4o，这说明慢思考系统在多图推理任务上同样有效。

此外，模型在不同领域的表现也存在差异。

在算术领域，Claude-3.5的准确率最高，达到54.2%；而在组合几何领域，其准确率仅为27.0%。

这表明MLLM在处理需要复杂图像理解和推理的领域时存在较大困难。

与此同时，团队针对题目难度、模型提示、图像关联性以及图像输入方式四个维度对实验结果进行了更细粒度的分析。

大模型全军覆没，中科院自动化所推出多图数学推理新基准

具体而言，如图中（a）所示，在不同难度级别上，模型的表现也有所不同。

在简单问题上，GPT-4o的准确率最高，达到40.3%；而在中等难度问题上，Claude-3.5的准确率最高，为37.5%。在困难问题上，所有模型的表现都大幅下降，Claude-3.5的准确率仅为26.6%。

而图（b）表明，对于闭源模型，CoT和few-shot对MV-MATH多图推理并不一定有效。对于所有的开源模型，CoT和few-shot都会降点。

在图像关联性上，MD子集包含相互依赖的图像，需要更高水平的跨图像理解。

如图中（c）所示，绝大多数模型在MD子集上的性能均低于ID子集，其中Gemini-1.5-pro的性能差距最大，达到 7.8%。

这一观察结果表明，大多数模型在处理数学场景中的相互依赖图像任务上面临挑战，凸显了MLLM在处理数学多视觉环境中跨图像相互依赖关系的潜在局限性。

至于图像输入方式，如图中（d）所示，结果一致表明，在所有测试模型中，图像序列输入的表现都优于合并输入，这表明保留图像的位置和顺序信息对于多图推理至关重要。

序列输入的高性能凸显了结构化视觉信息在增强模型解释和处理复杂数学场景的能力方面的重要性。

小结

随着最近OpenAI o1，DeepSeek-R1等模型的爆火，大家看到了慢思考模型在文本推理上的强大性能。然而目前视觉大模型的慢推理仍然没有一个固定的范式。

本研究通过大量实验证实了MLLM在复杂多视觉感知与图像交叉理解上仍然存在困难，在多图数学推理上存在极大的改进空间。

本研究旨在全面评估MLLM在多视觉场景中的数学推理能力，推动多图数学推理的进一步发展。

在线ai生成mv制作平台免费使用的一站式mv生成工具

免费ai生成mv在线工具无需付费的mv制作网站

ai生成mv免费入口 ai生成mv的免费工具大全

ai生成mv免费入口零成本制作mv的平台推荐

AI音乐创作全攻略：用Tune AI轻松制作音乐和MV

相关专题

数据分析的方法

数据分析的方法有：对比分析法，分组分析法，预测分析法，漏斗分析法，AB测试分析法，象限分析法，公式拆解法，可行域分析法，二八分析法，假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

473

2023.07.04

数据分析方法有哪几种

数据分析方法有：1、描述性统计分析；2、探索性数据分析；3、假设检验；4、回归分析；5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容，供大家免费下载体验。

280

2023.08.07

网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站，实现网站的目标。

739

2023.10.16

数据分析网站推荐

数据分析网站推荐：1、商业数据分析论坛；2、人大经济论坛-计量经济学与统计区；3、中国统计论坛；4、数据挖掘学习交流论坛；5、数据分析论坛；6、网站数据分析；7、数据分析；8、数据挖掘研究院；9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容，可以阅读本专题下面的文章。

516

2024.03.13

Python 数据分析处理

本专题聚焦 Python 在数据分析领域的应用，系统讲解 Pandas、NumPy 的数据清洗、处理、分析与统计方法，并结合数据可视化、销售分析、科研数据处理等实战案例，帮助学员掌握使用 Python 高效进行数据分析与决策支持的核心技能。

2025.09.08

Python 数据分析与可视化

本专题聚焦 Python 在数据分析与可视化领域的核心应用，系统讲解数据清洗、数据统计、Pandas 数据操作、NumPy 数组处理、Matplotlib 与 Seaborn 可视化技巧等内容。通过实战案例（如销售数据分析、用户行为可视化、趋势图与热力图绘制），帮助学习者掌握从原始数据到可视化报告的完整分析能力。

2025.10.14