mistral ai 宣布推出 mistral3 系列开源模型,涵盖 3b、8b 和 14b 三款轻量级密集模型,以及迄今为止最强大的稀疏混合专家模型——mistral large3。该模型在训练过程中激活 410 亿参数,总参数量高达 6750 亿,所有模型均采用 apache 2.0 许可证发布,全面适配从边缘计算设备到企业级推理的多样化应用场景。


官方表示,Mistral Large3 是当前全球领先的开放权重模型之一,完全基于 NVIDIA 的 3000 块 H200 GPU 从零开始训练而成。作为自开创性 Mixtral 系列以来 Mistral 首次推出的 MoE 架构模型,它标志着公司在预训练技术上的重大突破。经过后训练优化,该模型在通用提示任务中的表现媲美市面上顶尖的指令调优开源模型,同时具备出色的图像理解能力,并在多语言对话(如非英语及中文场景)中展现出卓越性能。

Mistral Large3 已与 vLLM 及 Red Hat 实现良好集成,对开源社区高度友好。Mistral AI 发布了由 llm-compressor 构建的 NVFP4 格式 checkpoint,这一优化版本使用户能够在 Blackwell NVL72 系统上高效运行模型,也可在配备 8×A100 或 8×H100 的单个节点上通过 vLLM 支持流畅部署。
整个 Mistral 3 系列模型均在 NVIDIA Hopper 架构 GPU 上完成训练,充分利用 HBM3e 高带宽内存应对大规模工作负载。NVIDIA 工程团队为全系列模型提供了 TensorRT-LLM 与 SGLang 的高效推理支持,实现低精度下的高性能执行。
针对 Mistral Large3 所采用的稀疏 MoE 架构,NVIDIA 引入了先进的 Blackwell 注意力机制和专用 MoE 内核,增强对预填充与解码阶段分离的支持,并联合 Mistral 共同开发推测性解码技术,助力开发者在 GB200 NVL72 及更高端平台上高效处理长上下文、高吞吐量任务。在终端侧,NVIDIA 还推出了在 DGX Spark、RTX PC、笔记本电脑及 Jetson 设备上优化部署 Ministral 模型的完整方案,构建了一条贯穿数据中心至机器人设备的统一高性能部署路径。

据 Mistral AI 称,Ministral 3 在现有开源模型中实现了最优的成本效益比。实际应用中,生成 token 数量与模型规模同样关键。Ministral 指令模型不仅性能达到甚至超越同类产品,其输出 token 数通常还减少一个数量级,显著降低使用成本。
目前,Mistral Large3 已登陆公司官方平台 Le Platforme,提供 API 接口服务,定价为每百万输入 token 0.8 美元、输出 2.4 美元,约为 GPT-4o 的一半价格,同时支持模型微调与私有化部署。
了解更多详情,请访问官方公告:https://www.php.cn/link/b4cf1000ee57d756b58dc7c8a5936c26
源码下载地址:点击获取
以上就是Mistral AI 发布 Mistral 3 系列开源模型的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号