angelslim 是什么
angelslim 是由腾讯混元团队自主研发并开源的全模态大模型压缩工具套件,融合量化、投机采样、稀疏化与知识蒸馏等多种前沿压缩技术,面向大语言模型(llm)、视觉语言模型(vlm)以及语音识别与合成模型(asr/tts),提供高效、灵活且开箱即用的模型轻量化与推理加速能力。该工具包全面支持 fp8/int8/int4 等多级精度量化,集成 gptq、awq 等主流量化方案,具备一键式压缩接口与端到端部署能力;训练输出的压缩模型可直接对接 vllm、sglang 等高性能推理引擎。angelslim 重磅升级投机采样训练体系,创新推出 eagle3 架构,首次将投机采样能力拓展至文本、图像、语音全模态任务,使小型草稿模型能为大型目标模型批量生成多步候选 token,并由大模型并行验证,实测推理吞吐量最高提升 1.4–1.9 倍。目前已完成对混元(hunyuan)、deepseek、通义千问系列(qwen、qwen2.5vl、qwen3-omni)等主流开源模型的适配优化,开发者可通过 pip install angelslim 快速集成使用。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AngelSlim 的核心功能
- 多粒度量化压缩:覆盖 FP8、INT8、INT4 等多种低精度表示格式,内置 GPTQ(逐层权重优化)、AWQ(激活感知权重量化)等先进算法,在显著降低模型体积与计算负载的同时最大限度保留原始性能。
- 投机采样推理加速:基于原创 Eagle3 训练框架,构建“小模型起草 + 大模型校验”的协同机制,支持一次性生成并验证多个候选 token,突破传统自回归解码瓶颈,推理速度实测提升达 1.4–1.9 倍。
- 全模态统一压缩支持:原生兼容 LLM、VLM 及 ASR/TTS 模型,首次实现投机采样技术在跨模态场景下的通用化落地,打通文本理解、图文交互、语音处理等多类 AI 任务的加速路径。
- 结构化稀疏与知识蒸馏:整合非结构化剪枝(权重级)、结构化剪枝(通道/头级)及多层次知识迁移策略,进一步削减参数量与计算复杂度,兼顾压缩率与泛化能力。
- 极简 API 调用体验:封装标准化压缩流程,屏蔽底层算法差异,开发者仅需数行代码即可完成模型量化、蒸馏或投机采样训练,大幅降低使用门槛。
- 无缝推理框架对接:压缩后模型可直接加载至 vLLM、Sglang 等主流服务化推理框架,无需额外转换或适配,实现从训练压缩到线上部署的全链路贯通。
- 广泛模型生态兼容:已深度适配腾讯混元、DeepSeek 系列、通义千问全系(含 Qwen、Qwen2.5VL、Qwen3-Omni)等主流开源大模型,持续扩展中。
AngelSlim 的技术原理
- 量化压缩机制:将原始高精度浮点权重(FP16/FP32)映射至低比特整型(INT4/INT8)或新型 FP8 格式,结合 GPTQ 的层内误差补偿策略与 AWQ 对激活分布的敏感建模,有效抑制低比特带来的精度衰减。
- 投机采样工作机制:引入轻量级 Draft Model 预测若干候选 token 序列,再由 Target Model 并行评估其合法性;接受正确 token,拒绝错误项并回退重采,以“批处理式验证”替代逐 token 串行生成,显著提升解码效率。
- Eagle3 架构设计思想:在标准投机采样基础上引入前瞻性多步预测训练范式,引导草稿模型学习目标模型未来多步 token 的联合分布特征,提升候选序列质量与接受长度(Acceptance Length),实测接受长度提升至原方案的 1.8–3.5 倍。
- 知识蒸馏实现逻辑:利用教师模型(大模型)输出的软概率分布(Soft Logits)及中间层隐状态作为监督信号,指导学生模型(小模型)拟合其行为模式,在压缩体积的同时继承关键语义与推理能力。
- 稀疏化执行方式:通过非结构化剪枝剔除冗余连接权重,或采用结构化剪枝移除整组神经元、注意力头等模块单元,降低模型计算密度,并协同 GPU/TPU 硬件稀疏加速指令集实现推理提速。
- 全模态统一框架构建逻辑:针对不同模态模型在输入编码、特征对齐、注意力机制等方面的异构性,抽象出通用压缩接口与模态感知适配层,确保量化、投机采样等核心技术可在文本、图像、语音模型间复用与迁移。
AngelSlim 的项目地址
- GitHub 仓库:https://www.php.cn/link/e66b1a672cde79b5b85580e3ae0d4ee6
- Hugging Face 模型中心:https://www.php.cn/link/a2816f807f2001d46e4d06248790f850
AngelSlim 的典型应用场景
- 云端大规模推理加速:为混元、DeepSeek、Qwen 等千亿参数级模型提供低显存占用、低延迟的在线服务支持,适用于高并发问答、智能搜索、实时对话等云上 AI 场景。
- 边缘与终端设备部署:借助 INT4/INT8 量化技术将大模型压缩至百 MB 级别,适配手机、平板、车载系统及 IoT 终端,在离线、低功耗、强隐私需求场景下稳定运行。
- 多模态 AI 应用提效:为图文理解(VLM)、语音转文字(ASR)、文字转语音(TTS)等任务提供统一压缩加速方案,赋能智能客服、内容安全审核、实时同传翻译等业务落地。
- AIGC 内容生成优化:在 AI 编程、创意写作、图像描述生成等生成式任务中,通过投机采样显著缩短首 token 延迟(TTFT)与整体响应时间(TPOT),增强用户交互流畅度。
- 企业私有化 AI 中台建设:助力企业在本地服务器或私有云环境中高效部署开源大模型,减少 GPU 资源投入与运维成本,构建安全可控、高性价比的专属 AI 能力底座。










