7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力

PHPz

发布时间：2024-03-04 17:43:33

672人浏览过

来源于51CTO.COM

转载

图神经网络（gnns）善于利用图的结构信息进行推断，但通常需要进行特定领域的调优，以实现最佳性能，这使得它们在不同任务之间的泛化能力受到限制。

大型语言模型（LLM）在图推理方面具有更强的跨任务和泛化能力，但通常在特定任务上表现不如专用的图神经网络模型。

当前图推理相关研究往往忽略了视觉信息在图推理中的重要性，无论是传统的图神经网络还是基于大型语言模型的图推理方法。

然而，人类会通过视觉特征高效和准确地完成图任务，例如判断图中是否存在环。

因此，探究视觉形态的图信息在图推理中的作用具有重要意义。

更具体地，将图（Graph）绘制为图片（Image），是否能赋予模型特殊的推理能力呢？这些图片（称为视觉图 Visual Graph）是否能增强现有的基于其他模态的图推理模型呢？

为了回答这些问题，来自香港科技大学和南方科技大学的研究团队构建了首个包含视觉图的推理问答数据集GITQA，并在GPT-4 turbo，GPT-4V等开源模型和Vicuna，LLaVA等闭源模型上进行了广泛的实验，证实了Visual Graph在图推理中的作用，以及其可以和文本模态相互增强。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力

图片

论文地址：https://arxiv.org/abs/2402.02130

项目主页：https://v-graph.github.io/

在GITQA测试基准中，以LLaVA-7B/13B为基础微调出的多模态模型GITA-7B/13B，展示出了超越GPT-4V的图推理性能。

GITQA 多模态图推理问答数据集

研究团队通过将图结构绘制为不同风格的视觉图像，建立了GITQA数据集及其相应的测试基准，GITQA数据集包含超过423K个问答实例，每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

GITQA数据集包含两个版本：GITQA-Base和GITQA-Aug，其中GITQA-Base只包含单一风格的视觉图。

GITQA-Aug则更加丰富，它对视觉图进行了多种数据增强处理，包括改变布局、点的形状、边的宽度和点的风格等，从而提供了更多样化的视觉图表现。

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力图片

如图1，GITQA测试基准包含8个具有代表性的图推理任务：Connectivity(判断图中两点是否联通)、Cycle(判断图中是否有环)、TS（寻找图的拓扑序）、 SP（寻找图中两点间的最短路径）、 MaxFlow（计算图中两点间的最大流）、 BGM（计算二分图的最大匹配）、 HP（寻找图中的哈密顿路径）和GNN（模拟GNN的消息传递）。

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力图片

每个任务所对应的数据集都被按照图结构的复杂程度被划分为不同难度等级的子集（相关统计如表1）。

实验及结果

实验一: 基于不同模态图信息的模型的图推理能力对比

研究团队在GITQA-Base数据集上，根据不同的模态图输入类型（包括仅文本（T-Only）、仅视觉（V-Only）、以及文本加视觉（V+T）），评估了流行的闭源和开源大型语言模型（如GPT-4 turbo和Vicuna-7B/13B）以及大型多模态语言模型（如GPT-4V和LLaVA-7B/13B）的表现。如图2所示。

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力图片

具体来说，闭源模型GPT-4和GPT-4V执行零样本推理，而对于开源模型Vicuna和LLaVA，则通过保持主干模型参数不变，仅训练Projector和LoRA部分进行了微调（特别地，视觉+文本双模态微调后的LLaVA模型被研究者命名为GITA）。

表2总结了所有八项图推理任务的测试结果。

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力图片

视觉模态 V.S. 文本模态

从表2中可以看到，在Cycle和BGM任务上，视觉模态的表现优于文本模态，而在其他五个任务上则不如文本模态。这揭示了视觉和文本在处理特定类型的图推理任务上各具优势。视觉和文本模态的相互增强

对于闭源模型，GPT-4V（V+T）在八个任务的平均准确率上远高于GPT-4 Turbo（T-only）和GPT-4V（V-only）。

Glimmer Ai

基于GPT-3和DALL·E2的PPT制作工具

下载

对于开源模型（7B，13B），同样地，使用双模态数据训练出的GITA模型平均表现最佳。这些观察结果验证了同时使用视觉和文本信息能够增强模型的图推理能力，相比单模态模型可以实现更好的性能。

更具体地说，GITA-7B（V+T）在几乎所有任务中表现优于LLaVA-7B（V-only）和Vicuna-7B（T-only）。而对于闭源模型，使用双模态在八个任务中的五个上达到了最高准确率。微调后的LLaVA模型可超越GPT-4V

如表2和图3所示，GITA-7B和GITA-13B模型，即经过双模态微调的LLaVA-7B/13B模型，显示出相较于GPT-4V超过13%的显著性能提升。这一巨大的进步幅度表明，微调后的GITA模型能够有效地从GITQA数据集中学习到出色的图推理能力。

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力图片

实验二：难度等级对图任务的影响

表3进一步给出了模型在不同难度级别上的测试精度，GNN任务由于对所有模型都太具挑战被省略)。

在所有难度级别的Cycle和BGM任务中，单独使用视觉模态的表现优于文本模态，并且与使用两种模态的表现相当。

然而，对于其他任务，当难度从简单增加到中等或困难时，只使用视觉模态的模型的性能显著下降。

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力图片

同样，当难度增加时，只使用文本模态和使用视觉+文本模态的模型在这些任务上也会出现大幅度的性能下降。

对于Connectivity任务，GITA-7B（视觉+文本）和GITA-13B（视觉+文本）在所有三个挑战级别上都表现出相当的性能。

然而，这种一致的模式在GPT-4V（视觉+文本）中并未观察到，因为其性能随着难度级别的增加而下降。

实验三: 视觉图的增强策略和风格偏好

研究团队还探究了特别的数据增强策略在微调模型时的效果。

基于不同的增强策略，研究者将GITQA-Aug数据集划分为四个增强子集: 布局增强数据集，节点形状增强数据集，边的宽度增强数据集，节点风格增强数据集。

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力图片

研究者在仅使用视觉图信息的LLaVA-7B模型上对全部四个增强子集进行了单独的微调，其推理性能与数据增强前的比较如表4所示。

可以明显看出，模型在布局增强数据集上对于挑战性任务的推理能力急剧提升（SP 上升64.8%，HP上升69.63%）。

而其他三种数据增强策略反而导致性能下降。

具体来说，模型在布局增强集上取得了优异的结果，比GITQA-Base集高出11%以上。相比之下，其他增广集中八个任务的平均结果比基本集低约5%

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力图片

这些发现表明基于布局的数据增强为图推理提供了更有效的视觉视角。进一步，研究者还测试了各个增强策略下，在同组内基于每种风格的Visual Graph推理的性能，如表5所示，展示出模型没有明显的风格偏好。

Cursor自动修改代码问题怎么用_修复方法是什么【操作】

workbuddy部署后验证方法_workbuddy部署验证教程【教程】

Ollama如何下载热门大模型_Ollama模型安装方法【教程】

MiniMax生成速度慢是什么原因_MiniMax运行变慢常见原因汇总【汇总】

MiniMax模型选择太多怎么选_MiniMax模型选择思路说明【说明】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4220

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2911

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04