Mistral AI 发布 Mistral 3 系列开源模型-IT新闻-PHP中文网

Mistral AI 发布 Mistral 3 系列开源模型

花韻仙語

发布： 2025-12-03 15:19:02

原创

264人浏览过

mistral ai 宣布推出 mistral3 系列开源模型，涵盖 3b、8b 和 14b 三款轻量级密集模型，以及迄今为止最强大的稀疏混合专家模型——mistral large3。该模型在训练过程中激活 410 亿参数，总参数量高达 6750 亿，所有模型均采用 apache 2.0 许可证发布，全面适配从边缘计算设备到企业级推理的多样化应用场景。

Mistral AI 发布 Mistral 3 系列开源模型

官方表示，Mistral Large3 是当前全球领先的开放权重模型之一，完全基于 NVIDIA 的 3000 块 H200 GPU 从零开始训练而成。作为自开创性 Mixtral 系列以来 Mistral 首次推出的 MoE 架构模型，它标志着公司在预训练技术上的重大突破。经过后训练优化，该模型在通用提示任务中的表现媲美市面上顶尖的指令调优开源模型，同时具备出色的图像理解能力，并在多语言对话（如非英语及中文场景）中展现出卓越性能。

Mistral AI 发布 Mistral 3 系列开源模型

Mistral Large3 已与 vLLM 及 Red Hat 实现良好集成，对开源社区高度友好。Mistral AI 发布了由 llm-compressor 构建的 NVFP4 格式 checkpoint，这一优化版本使用户能够在 Blackwell NVL72 系统上高效运行模型，也可在配备 8×A100 或 8×H100 的单个节点上通过 vLLM 支持流畅部署。

整个 Mistral 3 系列模型均在 NVIDIA Hopper 架构 GPU 上完成训练，充分利用 HBM3e 高带宽内存应对大规模工作负载。NVIDIA 工程团队为全系列模型提供了 TensorRT-LLM 与 SGLang 的高效推理支持，实现低精度下的高性能执行。

针对 Mistral Large3 所采用的稀疏 MoE 架构，NVIDIA 引入了先进的 Blackwell 注意力机制和专用 MoE 内核，增强对预填充与解码阶段分离的支持，并联合 Mistral 共同开发推测性解码技术，助力开发者在 GB200 NVL72 及更高端平台上高效处理长上下文、高吞吐量任务。在终端侧，NVIDIA 还推出了在 DGX Spark、RTX PC、笔记本电脑及 Jetson 设备上优化部署 Ministral 模型的完整方案，构建了一条贯穿数据中心至机器人设备的统一高性能部署路径。