腾讯混元 ai infra 团队正式开源面向生产环境的高性能大语言模型(llm)推理核心算子库 hpc-ops。该库直击工业级部署中的实际瓶颈,完全基于 cuda 与 cute 从底层重构,融合工程架构抽象化设计、gpu 微架构深度适配以及指令级精细化调优等多重技术手段,在显著降低底层算子开发复杂度的同时,推动关键算子性能逼近硬件理论极限,达成实质性性能跃升。
据官方介绍,HPC-Ops 是一套轻量、高吞吐、低延迟的 LLM 推理算子集合,专为大规模模型服务场景优化。其核心模块涵盖:FusedMoE(融合专家混合)、Attention(注意力机制)、设备内/跨设备通信(Intra-/Inter-node Communication)、Norm(归一化)、Sampler(采样器),以及多种高频小算子的深度融合实现。团队通过深入剖析典型推理任务的数据流特征与 GPU 硬件微架构特性,精准匹配计算划分策略与底层指令执行模型,从而释放更高并行效率;同时对工程代码层进行合理抽象,使算法工程师可更专注于模型逻辑与算子语义设计,大幅缩减后续迭代与维护成本。
HPC-Ops 算子库整体架构如下:

腾讯混元 AI Infra 团队披露的实际测试数据显示:在真实业务负载下,搭载 HPC-Ops 后,混元系列模型推理 QPM(Queries Per Minute)提升达 30%,DeepSeek 系列模型 QPM 提升 17%。单算子维度表现尤为突出——Attention 算子相较 FlashInfer / FlashAttention 最高提速 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提速 1.88 倍;FusedMoE 相较 TensorRT-LLM 最高提速 1.49 倍。
开源地址:https://www.php.cn/link/16336454a85385930240ed442009e5e1











