腾讯微信ai团队推出了一种创新的扩散语言模型架构——wedlm(wechat diffusion language model),旨在突破传统大语言模型(如gpt系列)在并行推理阶段存在的效率瓶颈。

论文 & 代码开源地址:https://www.php.cn/link/f832012aa9c2b51641e64e901024047c
该框架引入拓扑重排策略,巧妙融合扩散建模范式与标准因果注意力机制,使得并行文本生成过程能够无缝支持KV缓存优化,有效规避了传统扩散模型因依赖双向注意力而导致的硬件加速受限问题。这一改进不仅维持了高质量的语言生成能力,还大幅提升了推理吞吐量,尤其在高难度推理任务(例如数学推演、程序代码合成)中展现出显著优势。

实测性能
- 推理提速明显:在数学推理基准GSM8K上,WeDLM-8B相较经过深度优化的自回归模型(如Qwen3-8B)实现约3倍加速;而在低不确定性场景(如数值计数类任务)下,加速比更可突破10倍。
- 生成质量稳健:在ARC、MMLU、Hellaswag等多个权威评测集上,WeDLM的准确率与主流自回归基线模型基本持平甚至略有领先,验证了其“高效不降质”的设计目标。

典型应用方向
WeDLM特别适合对响应延迟敏感、需高频次批量生成文本的应用场景,包括但不限于智能客服对话系统、IDE内嵌式编程助手、即时问答引擎等。凭借卓越的推理效率,该模型有助于显著压缩服务端计算开销,同时增强终端用户的交互体验。
源码获取地址:点击下载










