将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

WBOY

发布时间：2024-02-01 17:15:23

1192人浏览过

来源于机器之心

转载

大型视觉语言模型（lvlm）可以通过扩展模型来提高性能。然而，扩大参数规模会增加训练和推理成本，因为每个token的计算都会激活所有模型参数。

来自北京大学、中山大学等机构的研究者联合提出了一种新的训练策略，名为MoE-Tuning，用于解决多模态学习和模型稀疏性相关的性能下降问题。MoE-Tuning能够构建参数数量惊人但计算成本恒定的稀疏模型。此外，研究者还提出了一种基于MoE的新型稀疏LVLM架构，称为MoE-LLaVA框架。在这个框架中，通过路由算法仅激活前k个专家，其余专家保持非活动状态。通过这种方式，MoE-LLaVA框架在部署过程中能够更加高效地利用专家网络的资源。这些研究成果为解决LVLM模型在多模态学习和模型稀疏性方面的挑战提供了新的解决方案。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

论文地址：https://arxiv.org/abs/2401.15947
项目地址：https://github.com/PKU-YuanGroup/MoE-LLaVA
Demo地址：https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
论文题目：MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

MoE-LLaVA 只有 3B 个稀疏激活参数，表现却与 LLaVA-1.5-7B 在各种视觉理解数据集上相当，甚至在物体幻觉基准测试中甚至超越了 LLaVA-1.5-13B。通过 MoE-LLaVA，该研究旨在建立稀疏 LVLMs 的基准，并为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。MoE-LLaVA 团队已经开放了所有的数据、代码和模型。

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

^{图 1 MoE-LLaVA 在幻觉性能上和其他 LVLM 的比较}

方法简介

MoE-LLaVA 采用三阶段的训练策略。

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

VISBOOM

AI虚拟试衣间，时尚照相馆。

下载

^{图 2 MoE-Tuning 的流程图}

如图 2 所示，视觉编码器（vision encoder）处理输入图片得到视觉 token 序列。利用一个投影层将视觉 token 映射成 LLM 可接受的维度。类似地，与图片配对的文本经过一个词嵌入层（word embedding layer）被投影得到序列文本 token。

阶段 1：如图 2 所示，阶段 1 的目标是让视觉 token 适应到 LLM，赋予 LLM 看懂图片的实体有哪些的能力。MoE-LLaVA 采用一个 MLP 来将图片 token 投影到 LLM 的输入域，这意味着一个个图片小 patch 被 LLM 当作伪文本 token。在这个阶段，LLM 被训练学会描述图片，理解更高层次的图片语义。在这个阶段 MoE 层不会被应用到 LVLM 中。

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

^{图 3 更具体的训练框架和训练策略}

阶段 2：用多模态的指令数据来微调是提高大模型能力和可控性的关键技术，并且在这个阶段 LLM 被调整为有多模态理解能力的 LVLM。在这个阶段该研究加入更复杂的指令，包含图片逻辑推理，文字识别等高级任务，要求模型有更强的多模态理解能力。通常来说，稠密模型的 LVLM 到此就训练完成，然而研究团队发现同时将 LLM 转为 LVLM 和把模型稀疏化是具有挑战的。因此，MoE-LLaVA 将使用第二阶段的权重作为第三阶段的初始化以降低稀疏模型学习的难度。

阶段 3：MoE-LLaVA 将 FFN 复制多份作为专家集合的初始化权重。当视觉 token 和文本 token 被喂入 MoE 层时，router 会计算每一个 token 和专家们的匹配权重，然后每个 token 会被送入最匹配的 top-k 个专家进行处理，最后根据 router 的权重加权求和汇聚成输出。当 top-k 个专家被激活时，其余的专家保持非活动状态，这种模型构成了具有无限可能的稀疏通路的 MoE-LLaVA。

实验

如图 4 所示，由于 MoE-LLaVA 是第一个基于 LVLM 搭载 soft router 的稀疏模型，因此该研究将之前的模型归纳为稠密模型。研究团队在 5 个图片问答 benchmark 上验证了 MoE-LLaVA 的性能，并报告了激活的参数量和图片分辨率。与 SOTA 方法 LLaVA-1.5 相比，MoE-LLaVA-2.7B×4 展现了强大的图片理解能力，在 5 个 benchmark 上性能非常接近 LLaVA-1.5。其中 MoE-LLaVA 用 3.6B 的稀疏激活参数在 SQAI 上超过了 LLaVA-1.5-7B 1.9%。值得注意的是，由于 MoE-LLaVA 的稀疏结构，只需要 2.6B 的激活参数量就能全面超过 IDEFICS-80B。

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

^{图 4 MoE-LLaVA 在 9 个 benchmark 上的性能}

另外，研究团队还关注到最近的小视觉语言模型 TinyGPT-V，MoE-LLaVA-1.8B×4 在相当的激活参数下在 GQA 和 VisWiz 分别超过 TinyGPT-V 27.5% 和 10%，这标志着 MoE-LLaVA 强大的理解能力在自然视觉中。

为了更全面地验证 MoE-LLaVA 的多模态理解能力，该研究在 4 个 benchmark toolkit 上评估了模型性能。benchmark toolkit 是验证模型能否能自然语言问答的工具包，通常答案是开放性的并且无固定模板。如图 4 所示，MoE-LLaVA-1.8B×4 超过了 Qwen-VL，后者使用更大的图片分辨率。这些结果都展示了 MoE-LLaVA 这一稀疏模型可以用更少的激活参数达到和稠密模型相当甚至超过的性能。

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

^{图 5 MoE-LLaVA 在幻觉物体检测上的性能评估}

该研究采用 POPE 评估 pipeline 来验证 MoE-LLaVA 的物体幻觉，结果如图 5 所示，MoE-LLaVA 展现出最好的性能，意味着 MoE-LLaVA 倾向于生成与给定图像一致的对象。具体的，MoE-LLaVA-1.8B×4 以 2.2B 的激活参数超过了 LLaVA。另外，研究团队观察到 MoE-LLaVA 的 yes ratio 占比处于较均衡状态，这表明稀疏模型 MoE-LLaVA 能够根据问题做出正确的反馈。

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

^{图 6 专家负载可视化}

图 6 展示了在 ScienceQA 上 MoE-LLaVA-2.7B×4-Top2 的专家负载。整体上，在训练初始化时，所有的 MoE 层中的专家的负载比较平衡。然而随着模型逐渐被稀疏化，第 17 到 27 层的专家的负载突然增大，甚至几乎包揽了所有 token。对于浅层的 5-11 层，主要是由专家 2、3、4 共同协作。值得关注的是，专家 1 几乎只在第 1-3 层工作，随着模型变深，专家 1 逐渐退出了工作。因此，MoE-LLaVA 的专家们学到了某种特定的模式，它能够按照一定的规律进行专家分工。

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

^{图 7 模态分布可视化}

图 7 展示了不同专家的模态分布。该研究发现 text 和 image 的路由分布极其相似，例如当专家 3 在 17-27 层努力工作时，它所处理的 text 和 image 的占比是相似的。这表明 MoE-LLaVA 对于模态并无明显的偏好。

该研究还在 token level 上观察了专家们的行为，并在下游任务上跟踪所有 token 在稀疏网络中的轨迹。对 text 和 image 所有激活的通路，该研究采用 PCA 降维得到主要的 10 条通路，如图 8 所示。研究团队发现对于某个未见的 text token 或 image token，MoE-LLaVA 始终偏向于派发专家 2 和 3 来处理模型深层。专家 1、4 倾向于处理初始化的 token。这些结果能够帮助我们更好地理解稀疏模型在多模态学习上的行为，并探索未知的可能。

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

^{图 8 激活通路可视化}

理想汽车“二次创业” 2026年能否重回牌桌

AI生成头像可控性有多强？实测8款工具的“自定义”功能（调整表情/更换背景/指定服饰）

2025年20万以上轿车销量出炉小米SU7力压帕萨特夺冠

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

保时捷中国谈东安经销商跑路事件：全力保障客户权益

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6143

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

816

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1065

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1341

2024.03.01

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

753

2026.01.21

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

407

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2071

2024.08.16

word背景色怎么改成白色

Word是微软公司的一个文字处理器软件。word为用户提供了专业而优雅的文档工具，帮助用户节省时间并得到优雅美观的结果。word提供了许多易于使用的文档创建工具，同时也提供了丰富的功能供创建复杂的文档使用。怎么word背景色怎么该呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

3711

2023.07.21

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

热门下载

网站特效

网站源码

网站素材

前端模板