讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 新闻 > IT新闻 > 正文

Omni-Infer v0.7.0 已经发布，超大规模 MoE 模型推理加速技术

聖光之護

发布： 2025-12-12 17:43:01

原创

840人浏览过

omni-infer v0.7.0 已经发布，超大规模 moe 模型推理加速技术

Omni-Infer v0.7.0 正式上线，带来面向超大规模混合专家（MoE）模型的高效推理加速能力。

v0.7.0

核心亮点

Omni Cache 新增对 MLA（Multi-Head Latent Attention）与 GQA（Grouped-Query Attention）架构的支持
引入 chunk prefill 混合调度机制，实现更优的计算图融合与内存复用
全面兼容 SGLang 接口协议，提升复杂推理流程的灵活性与易用性

性能提升

在 2P8-1D32@A3 硬件配置下，支持 3.5K+1K 输入长度场景，Deepseek R1 实测 QPM 达 186，首字延迟（TTFT）显著优化
在 2P2-1D4@A3 配置下，openPangu-72B 单卡解码吞吐峰值达 1560 TPS，平均单 Token 延迟（TPOT）表现优异

已验证模型清单

模型	硬件平台	量化精度	部署模式
openPangu-Ultra-MoE-718B	A3	INT8	PD分离
openPangu-Ultra-MoE-718B	A2	INT8	PD分离
openPangu-72B	A3	INT8	PD分离
openPangu-38B	A3	INT8	混布
openPangu-38B	A2	INT8	混布
openPangu-7B	A3	BF16	混布
openPangu-7B	A2	BF16	混布
openPangu-7BVL	A3	BF16	混布
DeepSeek-R1	A3	INT8	PD分离
DeepSeek-R1	A3	W4A8C16	PD分离
DeepSeek-R1	A3	BF16	PD分离
DeepSeek-R1	A2	INT8	PD分离
DeepSeek-V3.1	A3	INT8	PD分离
DeepSeek-V3.2	A3	INT8	PD分离
DeepSeek-OCR	A2	BF16	混布
Qwen2.5-7B	A3	INT8	混布（TP>=1 DP=1）
Qwen2.5-7B	A2	INT8	混布（TP>=1 DP=1）
QwQ	A3	BF16	PD分离
QwQ	A2	BF16	PD分离
Qwen3-235B	A3	INT8	PD分离
Qwen3-235B	A2	BF16	PD分离
Qwen3-32B	A3	BF16	PD分离
Qwen3-32B	A3	INT8	PD分离
Qwen3-30B	A3	BF16	PD分离
Kimi-K2	A3	W4A8C16	PD分离
Kimi-K2 Thinking	A3	W4A8C16	PD分离
Longcat-flash	A3	BF16	PD分离
Ling-1T	A3	BF16	PD分离
GPT-OSS120B	A3	INT8	PD分离
GPT-OSS120B	A2	INT8	PD分离
GPT-OSS20B	A3	INT8	PD分离
GPT-OSS20B	A2	INT8	PD分离

安装方式

硬件平台	CPU架构	Docker镜像地址	Tar包名称
A3	arm	docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-arm:release\_v0.7.0-vllm	omni\_infer-a3-arm:v0.7.0\_vllm
A3	x86	docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-x86:release\_v0.7.0-vllm	omni\_infer-a3-x86:v0.7.0\_vllm
A2	arm	docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-arm:release\_v0.7.0-vllm	omni\_infer-a2-arm:v0.7.0\_vllm
A2	x86	docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-x86:release\_v0.7.0-vllm	omni\_infer-a2-x86:v0.7.0\_vllm

更多详情请参阅：https://www.php.cn/link/9f78e8aa1530b26c85f555017d89e745

Codeium

Codeium

一个免费的AI代码自动完成和搜索工具

Codeium

345

Codeium

源码获取：点击下载

以上就是Omni-Infer v0.7.0 已经发布，超大规模 MoE 模型推理加速技术的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git docker ai gpt gitee ultra deepseek qwen 架构 Token 接口 docker ocr https gitee gpt

大家都在看：

用数据照亮成长之路：PandaCoder Git 统计工具窗口 Git 3.0 有望在 2026 年发布，默认启用更安全的 SHA-256 哈希算法 JetBrains 宣布 DataGrip 面向非商业用途免费 Linus 对 Git 提交信息中“Link:”标签被滥用表达不满开源 IDE 项目 Zed 完成 3200 万美元 B 轮融资

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：通义千问保持 AI 模型领先地位，阿里云 CTO 周靖人晋升阿里合伙人下一篇：无人机“谁能飞”“谁在飞”？两项强制性国家标准发布，明年 5 月起实施

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

PHP单文件实现动态发帖与即时显示教程

2025-12-12 17:10:28
解决Docker Alpine环境中Composer PHP版本冲突的教程

2025-12-12 17:12:35
全国集成电路标准化技术委员会 IP 核工作组成立

2025-12-12 17:14:04
《全面战争:战锤40K》要来了？官方周年庆视频现端倪

2025-12-12 17:17:29
Python嵌套Protocol的类型检查行为与Mypy限制解析

2025-12-12 17:24:22
PHP中从多个MySQL表获取数据并输出为结构化JSON的教程

2025-12-12 17:27:07
TGA：米哈游《绝区零》公布新预告

2025-12-12 17:30:25
《心之眼》评价缓慢回升中官方仍在努力更新提升

2025-12-12 17:30:31
Nuxt 3 useFetch 与 Cookie 头部：客户端请求的最佳实践

2025-12-12 17:39:36
新三国志曹操传沙盘1580层攻略

2025-12-12 17:40:04

最新问题

马斯克：希望下个月毫无保留地开源 X 平台全部代码 12月6日消息，北京时间今日凌晨，马斯克在X平台发布动态表示，X平台在向用户推送“令人着迷的内容”方面正快速推进，预计下个月即可全面开源X的全部源代码，做到彻底公开、不留保留。该表态系对科技博主RobertScoble一条长帖的回应。原帖核心内容整理如下：X平台的整体氛围正在悄然转变。我近期与xAI团队内部成员有过交流。据透露，全新升级的“完整版”推荐算法预计还需数周时间正式上线，将由新一代Grok模型驱动。而下面这份观察报告，让我对X的未来充满期待。随着新系统分阶段部署，平台生态已开始显现变化

2025-12-12 18:37:02

134

奶牛快传暂缓停服，正与 123 云盘洽谈战略合作感谢网友_ZeB、咩咩洋的线索提供！12月9日最新消息，奶牛快传于今日发布服务调整进展公告，表示在原定停服公告发布后，收到大量用户积极反馈与支持，经综合评估，决定暂缓原计划于12月8日启动的关停流程，并已正式与123云盘启动战略合作洽谈。谈判期间，奶牛快传所有功能（包括上传、下载、分享、登录等）将持续稳定运行，用户数据安全完整，现有使用体验不受任何影响。本次合作聚焦资源整合与能力互补，致力于为用户提供更可靠、更高效、更易用的云传输与存储服务体验。奶牛快传承诺将第一时间向公众同步合作进展及后续具体

2025-12-12 18:32:43

304

Meta 收购 AI 可穿戴初创公司 Limitless Meta近日正式宣布收购专注于人工智能可穿戴技术的初创公司Limitless。该公司以推出支持自然语音交互的智能吊坠（Pendant）而广受关注，其背后投资者阵容强大，涵盖知名风投机构AndreessenHorowitz以及OpenAI首席执行官SamAltman。Limitless的核心设备具备实时音频采集、高精度语音转文字及语义级语音搜索能力，核心定位是增强用户的注意力管理与长期记忆辅助。交易完成后，Limitless全体团队将并入Meta，深度参与下一代AI硬件的研发工作

2025-12-12 18:27:53

449

张亚勤院士：基础大模型最终不超过 10 个，十年后机器人比人多从ChatGPT到DeepSeek，AI正沿着“智能+”的路径进入新一轮浪潮。正值大模型从“算力堆叠”走向“推理优先”的关键节点，清华大学智能产业研究院（AIR）创始院长、中国工程院外籍院士张亚勤提出：新一轮人工智能，是信息智能、物理智能和生物智能的融合，本质上也是原子、分子和比特的融合。也就是说，在规模定律持续发挥作用的前提下，当参数规模、数据体量与算力资源跨过某个阈值，智能就不再只停留在模式识别，而是开始“涌现”——先是从鉴别式AI走向生成式AI，再从生成式AI走向以智能体为代表

2025-12-12 18:25:57

902

大空头看衰 OpenAI：下一个网景，注定失败感谢网友补药吖的线索提供！北京时间12月9日，据《商业内幕》消息，电影《大空头》真实原型人物迈克尔・伯里（MichaelBurry）于上周末在社交平台密集发文，直指当前市场热议的科技股泡沫，并对多位行业批评者及热门AI概念股展开猛烈抨击。近期，伯里已在内容创作平台Substack开设个人专栏，并围绕本轮AI投资热潮发表全新观点。他再度强调：当下资本市场最炙手可热的AI主题交易正暗藏巨大风险，而OpenAI正是这一泡沫的核心焦点。“OpenAI就是下一个网景——先驱者，却终将溃败。它正在以

2025-12-12 18:03:47

393

天马在美国反向起诉 LG Display 专利侵权，要求赔偿和产品禁令感谢网友哈基米德的线索投递！12月11日消息，据WitDisplay最新报道，天马微电子已在美国正式起诉LGDisplay，指控其在液晶显示器（LCD）与有机发光二极管（OLED）领域存在专利侵权行为。当地时间12月9日，天马微电子股份有限公司联合上海天马微电子股份有限公司，在美国得克萨斯州西区联邦地区法院奥斯汀分院提起诉讼，将LGDisplay及其在美运营主体LGDisplayAmerica列为被告，就四项核心专利被擅自使用一事提出索赔主张。天马方面表示：“LG

2025-12-12 17:55:29

155

无人机“谁能飞”“谁在飞”？两项强制性国家标准发布，明年 5 月起实施感谢网友Diixx、啊俊、山有扶苏的线索提供！12月9日消息，国家市场监管总局官网今日发布信息显示，市场监管总局（国家标准委）正式批准发布《民用无人驾驶航空器实名登记和激活要求》（GB46761—2025）与《民用无人驾驶航空器系统运行识别规范》（GB46750—2025）两项强制性国家标准，上述标准将于2026年5月1日起正式生效。为切实落实《无人驾驶航空器飞行管理暂行条例》中关于民用无人驾驶航空器（以下简称“无人机”）实名登记、激活管理及运行识别信息报送等相关规定，市场监管总

2025-12-12 17:54:47

868

Omni-Infer v0.7.0 已经发布，超大规模 MoE 模型推理加速技术 Omni-Inferv0.7.0正式上线，带来面向超大规模混合专家（MoE）模型的高效推理加速能力。v0.7.0核心亮点OmniCache新增对MLA（Multi-HeadLatentAttention）与GQA（Grouped-QueryAttention）架构的支持引入chunkprefill混合调度机制，实现更优的计算图融合与内存复用全面兼容SGLang接口协议，提升复杂推理流程的灵活性与易用性性能提升在2P8-1D32@A3硬件配置下，支持

2025-12-12 17:43:01

840

通义千问保持 AI 模型领先地位，阿里云 CTO 周靖人晋升阿里合伙人感谢网友我是搬运工的线索提供！12月10日消息，据《晚点LatePost》今日披露，阿里云首席技术官、通义实验室负责人周靖人已正式成为阿里巴巴合伙人。推动其晋升的关键因素之一，正是他所带领的通义实验室持续巩固了Qwen系列大模型的技术领先优势。阿里管理层对此给予高度评价，称“这一成果实属难得”。注：合伙人机制是阿里巴巴最高层级的集体决策组织。今年6月，该团队刚完成一轮大幅精简，人数缩减至上市以来新低——仅17人。公开信息显示，阿里合伙人选拔标准极为严格：候选人须在集团连续服务满5年，深度认同阿

2025-12-12 17:39:19

219

智谱上线并开源工业级语音合成系统 GLM‑TTS 智谱AI正式发布并开源了工业级语音合成系统GLM‑TTS。官方介绍显示，仅需3秒的语音片段，GLM‑TTS即可精准捕捉目标说话人的音色特征与语调习惯。该模型在通用文本朗读、情感化配音、教育口语评测、电子书播讲、智能有声客服等多种实际应用场景中，均可输出自然连贯、高度拟人化的语音效果。GLM‑TTS采用两阶段语音生成架构，并在训练过程中融合基于GRPO的强化学习策略，在公开基准测试的「字错误率（CER）」与「情感表达准确度」两项关键指标上，均达到当前开源模型中的最优水平（SOTA）。该模型基于G

2025-12-12 17:32:19

274

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Git 教程

18834次学习
收藏
Git版本控制工具

14649次学习
收藏
Git中文开发手册

0次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部