讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

Yi-VL大模型开源，荣居MMMU、CMMMU榜首

WBOY

发布时间：2024-01-22 21:30:21

|

517人浏览过

|

来源于机器之心

转载

1 月 22 日，零一万物 Yi 系列模型家族迎来新成员：Yi Vision Language（Yi-VL）多模态语言大模型正式面向全球开源。据悉，Yi-VL 模型基于 Yi 语言模型开发，包括 Yi-VL-34B 和 Yi-VL-6B 两个版本。

Yi-VL 模型开源地址：

https://huggingface.co/01-ai
https://www.modelscope.cn/organization/01ai

凭借卓越的图文理解和对话生成能力，Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上取得了领先成绩，展示了在复杂跨学科任务上的强大实力。

MMMU（全名 Massive Multi-discipline Multi-modal Understanding & Reasoning 大规模多学科多模态理解和推理）数据集包含了 11500 个来自六大核心学科（艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程）的问题，涉及高度异构图像类型和交织文本图像信息，对模型的高级知觉和推理能力提出了极高要求。在该测试集上，Yi-VL-34B 以 41.6% 的准确率表现超越了一系列多模态大模型，仅次于 GPT-4V（55.7%），展现出强大的跨学科知识理解和应用能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

零一万物yi-vl多模态大模型开源，mmmu、cmmmu两大权威榜单领先

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

^{来源：https://mmmu-benchmark.github.io}

在针对中文场景打造的 CMMMU 数据集上，Yi-VL 模型展现了「更懂中国人」的独特优势。CMMMU 包含了约 12000 道源自大学考试、测验和教科书的中文多模态问题。其中，GPT-4V 在该测试集上的准确率为 43.7%， Yi-VL-34B 以 36.5% 的准确率紧随其后，在现有的开源多模态模型中处于领先位置。

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

^{来源：https://cmmmu-benchmark.github.io/}

那么，Yi-VL 模型在图文对话等多元场景中的表现如何？

我们先看两个示例：

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

聚好用AI

聚好用AI

可免费AI绘图、AI音乐、AI视频创作，聚集全球顶级AI，一站式创意平台

下载

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

可以看到，基于 Yi 语言模型的强大文本理解能力，只需对图片进行对齐，就可以得到不错的多模态视觉语言模型 —— 这也是 Yi-VL 模型的核心亮点之一。

零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先

^{Yi-VL 模型架构设计和训练方法流程一览。}

在架构设计上，Yi-VL 模型基于开源 LLaVA 架构，包含三个主要模块：

Vision Transformer（简称 ViT）用于图像编码，使用开源的 OpenClip ViT-H/14 模型初始化可训练参数，通过学习从大规模「图像 - 文本」对中提取特征，使模型具备处理和理解图像的能力。
Projection 模块为模型带来了图像特征与文本特征空间对齐的能力。该模块由一个包含层归一化（layer normalizations）的多层感知机（Multilayer Perceptron，简称 MLP）构成。这一设计使得模型可以更有效地融合和处理视觉和文本信息，提高了多模态理解和生成的准确度。
Yi-34B-Chat 和 Yi-6B-Chat 大规模语言模型的引入为 Yi-VL 提供了强大的语言理解和生成能力。该部分模型借助先进的自然语言处理技术，能够帮助 Yi-VL 深入理解复杂的语言结构，并生成连贯、相关的文本输出。

在训练方法上，Yi-VL 模型的训练过程分为三个精心设计的阶段，旨在全面提升模型的视觉和语言处理能力。

第一阶段：零一万物使用 1 亿张的「图像 - 文本」配对数据集训练 ViT 和 Projection 模块。在这一阶段，图像分辨率被设定为 224x224，以增强 ViT 在特定架构中的知识获取能力，同时实现与大型语言模型的高效对齐。
第二阶段：零一万物将 ViT 的图像分辨率提升至 448x448，这一提升让模型更加擅长识别复杂的视觉细节。此阶段使用了约 2500 万「图像 - 文本」对。
第三阶段：零一万物开放整个模型的参数进行训练，目标是提高模型在多模态聊天互动中的表现。训练数据涵盖了多样化的数据源，共约 100 万「图像 - 文本」对，确保了数据的广泛性和平衡性。

零一万物技术团队同时也验证了可以基于 Yi 语言模型强大的语言理解和生成能力，用其他多模态训练方法比如 BLIP、Flamingo、EVA 等快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。Yi 系列模型可以作为多模态模型的基座语言模型，给开源社区提供一个新的选项。

目前，Yi-VL 模型已在 Hugging Face、ModelScope 等平台上向公众开放，用户可通过以下链接亲身体验这款模型在图文对话等多元场景中的优异表现。欢迎探索 Yi-VL 多模态语言模型的强大功能，体验前沿的 AI 技术成果。

相关文章

什么是“人形机器人”？特斯拉Optimus与产业供应链全解析

AI生成活动现场的即时新闻稿

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

内存飙升成本暴涨汽车会涨价还是减配？

10家中国车企入围入围财富世界500强比亚迪进前百

相关标签:

架构 github transformer https gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：机器学习项目的组织方式：Crisp-DM的应用下一篇：误差反向传播的概念和步骤

作者最新文章

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

mysql如何进行右连接_mysql right join应用场景

2026-03-14 09:48

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

github中文官网入口 github中文版官网网页进入

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4352

2026.01.21

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2926

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

49

2026.03.13

Python异步编程与Asyncio高并发应用实践

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

88

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

272

2026.03.11

Go高并发任务调度与Goroutine池化实践

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

59

2026.03.10

Kotlin Android模块化架构与组件化开发实践

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

99

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

最新文章

更多

VoicemodAI变声功能怎么使用_声音调整方法是什么【操作】

WorkBuddy钉钉机器人无法响应_WorkBuddy钉钉消息不触发处理方法

StableDiffusion怎么训练角色_StableDiffusion角色训练流程【介绍】

QClaw怎么导出配置方便迁移_QClaw配置导出方法说明【说明】

WorkBuddy怎么自动整理桌面图标_WorkBuddy桌面文件分类与归档技巧【整理】

Perplexity回答太简略怎么办_Perplexity深度搜索模式开启教程【秘籍】

Perplexity搜索结果不准确怎么办 Perplexity提示词Prompt优化技巧【实用干货】

ChatGPT如何结合Agent自动完成工作_ChatGPT智能体协作方法【教程】

workbuddy安装加速技巧_workbuddy加速安装解答【解答】

QClaw怎么查看已经绑定的设备列表_QClaw设备管理与解绑【说明】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部