0

0

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

霞舞

霞舞

发布时间:2025-03-05 14:30:10

|

1069人浏览过

|

来源于php中文网

原创

重磅推荐:visual-rft——视觉强化微调开源项目,赋能视觉语言模型!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏持续关注全球顶尖AI研究,已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Visual-RFT (Visual Reinforcement Fine-Tuning) 项目,将基于规则奖励的强化学习与强化微调(RFT)范式成功应用于视觉语言大模型(LVLM),突破了以往方法仅限于文本、数学等领域的局限。通过为视觉细分类、目标检测等任务设计特定规则奖励,Visual-RFT 为LVLM训练提供了全新思路!

图1展示了Visual-RFT的强大泛化能力:模型仅需少量数据,便能准确识别图片中特定宝可梦并定位其坐标。

图片

图 1. Visual-RFT 将强化微调扩展到多模态,只需10-1000条数据即可显著提升模型性能。

从RFT到Visual-RFT:强化学习在多模态领域的突破

OpenAI的强化微调技术,只需少量样本即可实现模型能力迁移。DeepSeek-R1揭示了其强大的推理能力源于基于可验证奖励的强化学习策略。然而,该策略此前主要应用于文本、数学等领域。Visual-RFT将此策略成功拓展至视觉领域,通过构建可验证规则奖励,解决了传统方法在视觉领域的局限性,实现高效、高泛化性的视觉理解与推理。

传统的视觉指令微调(SFT)需要大量数据,而Visual-RFT的少样本学习能力使其在数据稀缺场景下更具优势。

为了验证Visual-RFT的泛化能力,研究团队在目标检测、分类、 grounding等多个视觉任务上进行了测试。结果显示,Visual-RFT在开放词汇、少样本学习等设定下,仅需少量数据即可实现显著性能提升,并优于SFT方法。尤其在推理定位任务中,Visual-RFT展现出卓越的视觉推理能力。(详见论文)

图片

图 2. Visual-RFT在多个视觉任务上显著超越SFT。

图片

图 3. Visual-RFT框架图,利用IoU和cls奖励以及强化学习策略更新模型参数。

研究团队使用基于IoU的可验证奖励用于检测和grounding任务,使用基于分类正确性的cls奖励用于分类任务。(如图3所示)

Mootion
Mootion

Mootion是一个革命性的3D动画创作平台,利用AI技术来简化和加速3D动画的制作过程。

下载

图片

图 4. 推理定位结果展示,Visual-RFT超越SFT,更精准地定位物体。

图片

图 5. 推理细粒度分类结果展示,Visual-RFT超越SFT,更精准地定位物体。

图4和图5展示了模型输出结果,Visual-RFT通过强化学习策略,进行深入的推理分析,取得了优于SFT的性能。

Visual-RFT实验结果

基于QWen2-VL 2B/7B模型,Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上全面超越SFT。实验数据涵盖COCO、LVIS等通用场景和互联网卡通人物等开放场景。仅需少量数据,Visual-RFT即可实现能力迁移,展现出卓越的性能和鲁棒性。

图片

图片

图 5. 部分实验结果展示,Visual-RFT显著超越SFT。

Visual-RFT已开源!

Visual-RFT项目已开源,包含训练、评估代码和数据。欢迎参与!

项目地址:https://www.php.cn/link/b2c1a4c8e4f9c3f8efe19a903a005149

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

268

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2033

2024.08.16

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

10

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

29

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

21

2026.01.22

php会话教程合集
php会话教程合集

本专题整合了php会话教程相关合集,阅读专题下面的文章了解更多详细内容。

21

2026.01.22

宝塔PHP8.4相关教程汇总
宝塔PHP8.4相关教程汇总

本专题整合了宝塔PHP8.4相关教程,阅读专题下面的文章了解更多详细内容。

13

2026.01.22

PHP特殊符号教程合集
PHP特殊符号教程合集

本专题整合了PHP特殊符号相关处理方法,阅读专题下面的文章了解更多详细内容。

11

2026.01.22

PHP探针相关教程合集
PHP探针相关教程合集

本专题整合了PHP探针相关教程,阅读专题下面的文章了解更多详细内容。

8

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号