最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造

碧海醫心

发布时间：2025-02-18 14:54:01

593人浏览过

来源于php中文网

原创

ola：一款性能卓越的全模态语言模型，超越现有同类模型！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI研究成果，如果您有优秀工作，欢迎投稿或联系报道 (liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com)。

Ola模型，由腾讯混元Research、清华大学智能视觉实验室和南洋理工大学S-Lab联合研发，在图像、视频和音频理解方面展现出强大的竞争力。论文共同一作：清华大学刘祖炎博士、南洋理工大学董宇昊博士；通讯作者：腾讯饶永铭高级研究员、清华大学鲁继文教授。

GPT-4o的出现激发了全模态模型的研究热潮。虽然已有开源替代方案，但性能仍逊色于专用单模态模型。Ola模型的核心创新在于其渐进式模态对齐策略，它逐步扩展模型支持的模态，先从图像和文本入手，再逐步加入语音和视频数据，有效降低了训练成本并提升了模型性能。

项目地址：https://www.php.cn/link/42b1c6a5d2205c2a61dcc08c028e4592
论文：https://www.php.cn/link/a18177565d506ce27ba1197cb765ee0b
代码：https://www.php.cn/link/9754f4e85b915d1ecb9de2911d9d80cb
模型：https://www.php.cn/link/b4a3c653ae58ddb2b96bd00536fb0620

Ola模型在多个基准测试中显著超越了Qwen2.5-VL、InternVL2.5等主流模型。作为一款仅含70亿参数的全模态模型，它在图像、视频和音频理解方面均取得了突破性进展：

图像理解: 在OpenCompass基准测试中，其在8个数据集上的平均准确率达到72.6%，在所有参数量小于300亿的模型中排名第一，超越GPT-4o、InternVL2.5等。
视频理解: 在VideoMME测试中，Ola在输入视频和音频的情况下，准确率达到68.4%，超越LLaVA-Video、VideoLLaMA3等。
音频理解: 在语音识别和对话评估等任务中，Ola的表现也接近最先进的音频理解模型。

Ola模型、代码和训练数据均已开源，旨在推动全模态理解领域的研究发展。

图1：Ola全模态模型超越Qwen2.5-VL、InternVL2.5等主流多模态模型。

Cursor

一个新的IDE，使用AI来帮助您重构、理解、调试和编写代码。

下载

Ola模型的成功，得益于其独特的渐进式模态对齐策略、高效的架构设计以及高质量的训练数据。该策略将复杂的训练过程分解为更易管理的步骤，并有效利用了视频数据作为连接视觉和音频模态的桥梁。

图2：渐进式模态学习能够训练更好的全模态模型

Ola模型的架构支持全模态输入和流式文本及语音生成，其视觉和音频联合对齐模块通过局部-全局注意力池化层有效融合了多模态信息。

图3：Ola模型结构图

Ola的训练数据涵盖了图像、视频和音频等多种模态，并包含专门设计的跨模态视频数据，以增强模型对音频和视频之间关系的理解。实验结果充分证明了Ola模型的优越性能和渐进式模态对齐策略的有效性。 Ola的出现为全模态大模型的研究和应用带来了新的突破。

豆包生成的视频怎么去水印视频导出注意事项

AI生成产品发布会的新闻稿

deepseek精准诊断 DeepSeek智能诊断提示词示例

豆包会员一个月多少钱豆包会员价格与权益介绍

AI辅助进行电商直播脚本的创作

相关标签:

git ai qwen 架构 github https gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：威孚高科成功收购HySTech 40%股权，同步完成中国合资公司注册登记下一篇：国内首个短剧创作大模型开源了，一个人就能拍短剧，单卡80秒出大片

作者最新文章

如何在函数中创建并管理多个类实例以进行跨调用比较

2026-01-29 16:41

内存价格暴涨！iPhone 18系列起售价竟没变

2026-01-29 16:42

promovie如何拍照片

2026-01-29 16:51

黄仁勋访华取得成果数十万颗英伟达H200芯片订单获批：我国回应

2026-01-29 16:59

Go 中接口实现与方法接收者类型匹配的原理详解

2026-01-29 17:02

动态生成多页面并实现 URL 路由跳转的 JavaScript 教程

2026-01-29 17:21

如何重置或继承 HTML 元素的 CSS 属性值（而非使用 initial）

2026-01-29 17:26

CDPR创意总监发布《往日之影》截图暗示续作过场仍为第一人称

2026-01-29 17:33

《GTA6》狂热粉为窥探新作用无人机偷拍R星办公室

2026-01-29 17:34

微信callkit怎么设置

2026-01-29 17:44

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

1073

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2119

2024.08.16

C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化，包括单例模式、工厂模式、观察者模式、策略模式、命令模式等，结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析，帮助开发者掌握如何运用设计模式构建高质量的软件架构，提升系统的灵活性与可扩展性。

2026.01.30

c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容，阅读专题下面的文章了解更多详细内容。

2026.01.30

java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

2026.01.30

python 字符串格式化

本专题整合了python字符串格式化教程、实践、方法、进阶等等相关内容，阅读专题下面的文章了解更多详细操作。

2026.01.30

java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容，阅读专题下面的文章了解更多详细学习方法。

2026.01.29

java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容，阅读专题下面的文章了解更多详细操作。

2026.01.29

java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容，阅读专题下面的文章了解更多详细推荐内容。

2026.01.29

热门下载

网站特效

网站源码

网站素材

前端模板