0

0

清华浙大主导开源视觉模型爆炸, GPT-4V与LLaVA、CogAgent等平台带来革命性变革

WBOY

WBOY

发布时间:2024-01-04 08:10:58

|

1496人浏览过

|

来源于51CTO.COM

转载

目前,GPT-4 Vision在语言理解和视觉处理方面显示出了令人惊叹的能力。

然而,对于那些希望在不影响性能的情况下寻求成本效益替代方案的人来说,开源方案是一个具有无限潜力的选择。

Youssef Hosni是一位国外开发者,他为我们提供了三种可访问性绝对保障的开源替代方案来取代GPT-4V。

三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA在视觉处理领域拥有巨大潜力,值得我们深入了解。这些模型的研究和开发,可以为我们提供更高效、精准的视觉处理解决方案。通过运用这些模型,我们可以提升图像识别、目标检测和图像生成等任务的准确性和效率,为视觉处理领域的研究和应用带

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

LLaVa

LLaVA是一个多模态大模型,由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员合作开发。最初的版本发布于4月份。

它将视觉编码器和Vicuna(用于通用视觉和语言理解)结合在一起,展现了非常出色的聊天能力。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

10月份,经过升级的LLaVA-1.5在性能上已经接近多模态GPT-4,并在Science QA数据集上取得了最先进的结果(SOTA)。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

13B模型的训练,只需要8个A100就可以在1天内完成。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

可以看到,LLaVA能处理各类问题,且生成的回答既全面又富有逻辑。

LLaVA表现出一些接近GPT-4水平的多模态能力,在视觉聊天方面,GPT-4相对评分85%。

而在推理问答方面,LLaVA甚至达到了新SoTA——92.53%,击败多模态思维链。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

在视觉推理上,它的表现十分抢眼。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

提问:「如果有事实性错误,请指出来。如果没有,请告诉我,沙漠中正在发生什么?」

LLaVA还无法完全回答正确。

升级后的LLaVA-1.5给出了完美答案:「图中根本没有沙漠,有的是棕榈树海滩、城市天际线和一大片水域。」

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

另外,LLaVA-1.5还可以从图中提取信息,按照要求的格式进行回答,比如以JSON格式输出。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

给LLaVA-1.5一张满是水果蔬菜的图片,它也能像GPT-4V一样,把图片转化JSON。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

下面这幅图是什么意思?

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

这是一张根据诺兰《盗梦空间》绘制的简化草图,为了提高难度,角色名字被改成了假名。

LLaVA-1.5惊艳答出:「这是一张关于电影《盗梦空间》的图。它显示了梦境世界中的不同层次,每一层次用一条线表示。图写在一张纸上,纸放在一个台面上。」

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

一张食物图直接发给LLaVA-1.5,它火速就给你生成一份菜谱。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

而且,LLaVA-1.5不用「越狱」就可以识别出验证码。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

它还能检测出,图中是哪种硬币。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

尤为令人印象深刻的是,LLaVA-1.5还能告诉你图中的汪星人是什么品种。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

有网友用Bing生成了一张在阳光明媚的夏季海滩上穿着冬季外套的男人的图片,并请LLaVA 1.5指出图中有哪些问题。它的慧眼十分犀利——

这是一张经过处理或PS的照片,照片中一名男子穿着夹克,站在海滩上。该男子敞开外套,阳光照在他身上。这张图片的问题在于,它并非真实的海滩场景。该男子实际上并没有站在沙滩上,阳光也没有照在他身上。这张图是p出来的,营造出了一种海滩场景的假象,但它并没有真实地再现这个场景。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

OCR识别,LLaVA的性能也很强大。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

CogAgent

CogAgent是在CogVLM基础上改进的开源视觉语言模型,来自清华的研究者。

CogAgent-18B有110亿个视觉参数,和70亿个语言参数。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

论文地址:https://arxiv.org/pdf/2312.08914.pdf

在9个经典的跨模态基准(包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE)上,CogAgent-18B实现了最先进的通用性能。

在AITW和Mind2Web等图形用户界面操作数据集上,它大大超过了现有模型。

除了CogVLM已有的所有功能(可视化多轮对话、可视化接地)外,CogAgent.NET还提供了更多的功能:

Artbreeder
Artbreeder

创建令人惊叹的插画和艺术

下载

1.支持更高分辨率的视觉输入和对话答题。支持1120x1120的超高分辨率图像输入。

2.具备可视化代理的能力,能够在任何图形用户界面截图上返回任何给定任务的计划、下⼀步行动和带有坐标的具体操作。

3.增强了与图形用户界面相关的问题解答功能,使其能够处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。

4.通过改进预培训和微调,增强了OCR相关任务的能力。

图形用户界面代理(GUI Agent)

利用CogAgent,它可以帮我们一步步找到CVPR23的最佳论文。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

可以帮我们把手机显示调成明亮模式。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

这条推文有多少转评赞,为什么如此受欢迎,CogAgent都能分析出来,甚至连回复一个“Brilliant”,它都能操作。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

从弗罗里达大学到好莱坞,怎样选择最快的路线?如果从早上8点出发,该如何评估需要花多长时间?CogAgent都可以回答。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

可以设定特定的主题,让CogAgent往指定的邮箱里发邮件。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

想听一首,CogAgent可以一步步列出步骤。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

CogAgent能精准地描述出《原神》中的画面,还能引导你如何走到传送点。

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发图片

BakLLaVA

BakLLaVA1是使用LLaVA 1.5架构增强的Mistral 7B基础模型。

在第⼀个版本中,Mistral 7B基础模型在多个基准测试中优于Llama 2 13B。

在他们的repo中,就可以运行BakLLaVA-1了。页面还在不断更新中,以方便微调和推理。(https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1是完全开源的,但在某些数据上进行了训练,其中包括LLaVA的语料库,因此不允许商用。

BakLLaVA 2采用了更大的数据集和更新的架构,超越了当前的LLaVa方法。BakLLaVA摆脱了BakLLaVA-1的限制,可以商用。

参考资料:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

411

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

532

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

309

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

74

2025.09.10

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1969

2024.08.16

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

61

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

31

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

71

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

20

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 8.6万人学习

Rust 教程
Rust 教程

共28课时 | 4.4万人学习

Vue 教程
Vue 教程

共42课时 | 6.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号