xLLM— 京东开源的智能推理框架

心靈之曲

发布时间：2025-10-05 12:48:15

455人浏览过

来源于php中文网

原创

xLLM是什么

xllm 是由京东推出的开源高效智能推理框架，专为国产芯片深度优化，支持云端与终端一体化部署。该框架采用服务层与引擎层分离的架构设计，其中服务层负责请求调度与容错处理，引擎层则专注于底层计算性能优化。具备多流并行、图融合、动态负载均衡等核心技术，xllm 可广泛支持大语言模型、多模态模型以及生成式推荐等多种ai应用场景，提供高性能、低资源消耗的推理能力，助力智能客服、实时个性化推荐、自动化内容生成等业务快速落地，推动大模型在国产化硬件上的规模化部署与应用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
xLLM的主要功能

全图化与多层级流水线执行编排：通过框架层异步调度解耦、模型图层计算与通信并行化，以及算子内核级深度流水线优化，实现多层次协同执行机制，有效减少计算空闲时间，显著提升整体推理吞吐效率。
动态 Shape 图执行优化：采用参数化表达和多图缓存策略，灵活适配不同输入尺寸；结合受控显存池管理与自定义算子集成，在保障显存安全复用的同时增强静态图对动态输入的适应性，提升处理性能。
MoE 算子专项优化：针对 MoE（Mixture of Experts）结构进行深度优化，实现 GroupMatmul 和 Chunked Prefill 等关键算子改进，分别提高矩阵运算效率与长序列输入下的预填充性能，全面提升模型推理速度。
高效显存管理系统：利用离散物理内存映射至连续虚拟地址空间的技术，按需分配显存并智能调度内存页复用，降低碎片率和分配延迟，特别适配国产芯片的算子特性，最大化显存使用效率。
全局多级 KV Cache 管理机制：构建以 KV Cache 为核心的分布式存储架构，支持跨节点的智能缓存卸载与预取，并优化多级缓存间的数据传输路径，提升缓存命中率与数据流转效率。
算法层级性能增强：引入投机推理（Speculative Inference）与 MoE 专家模块的动态负载均衡技术，实现多核并行加速，动态调整专家分布策略，优化系统吞吐量与资源利用率。

如何使用xLLM

环境准备：
- 拉取镜像：根据目标硬件平台（如 A2、A3 等）及系统架构（x86 或 arm），选择对应的 Docker 镜像。例如，对于 x86 架构的 A2 设备，可使用 xllm/xllm-ai:0.6.0-dev-hb-rc2-x86 镜像。若主源下载失败，可尝试备用镜像 quay.io/jd_xllm/xllm-ai:0.6.0-dev-hb-rc2-x86。
- 启动容器：创建容器时需挂载必要的设备文件（如 /dev/davinci0、/dev/davinci_manager 等）、模型目录和驱动路径，确保容器具备访问底层硬件资源的能力。
安装与编译：
- 依赖安装：
  - 克隆代码库：进入容器后，从官方仓库克隆 xLLM 源码，并初始化子模块。
  - 配置 vcpkg：若镜像未预装 vcpkg，需手动克隆其仓库，并设置环境变量 VCPKG_ROOT 指向安装路径。
  - 安装 Python 依赖：使用清华大学 PyPI 镜像源安装所需 Python 包，建议先升级 setuptools 与 wheel。
- 编译构建：
  - 生成可执行程序：运行编译命令，默认目标为 A2 设备。若需适配其他设备（如 A3 或 MLU），可通过附加参数指定目标平台。
  - 打包 whl 文件：执行特定编译流程生成 Python 的 whl 安装包，输出文件将存放于 dist/ 目录下，便于后续分发或本地安装。
模型加载：

rpcms轻量开源内容管理系统3.3.3
RPCMS是一款基于PHP+MYSQL的轻量型内容管理/博客系统，支持PHP5.6版本以上，支持win/Linux系统。它自主研发的RP框架（OPP方式），采用MVC架构搭建的高效、稳定的内容管理系统。灵活小巧，但有着强大的扩展性、丰富的插件接口和大量的模板。统一采用模板标签，轻松上手，让开发更方便！智能缓存机制让网站运行方面大幅度提高。系统特点：源码简洁、体积轻巧、功能丰富、安全、灵活等特点，完

下载
- 准备模型数据：将训练好的模型文件放置于容器可访问的路径，如 /mnt/cfs/9n-das-admin/llm_models。
- 调用接口加载：使用 xLLM 提供的 API 接口完成模型加载，加载成功后即可开始执行推理任务。
发起推理请求：通过调用 xLLM 的推理接口传入文本或其他输入数据，框架将自动完成计算过程并返回结果，支持批量与流式输出模式。