0

0

推理加速新选择!Xinference 1.16.0 支持瀚博 GPU 与持续批处理

花韻仙語

花韻仙語

发布时间:2025-12-31 15:17:24

|

739人浏览过

|

来源于php中文网

原创

推理加速新选择!xinference 1.16.0 支持瀚博 gpu 与持续批处理

Xorbits Inference(Xinference)是一款高性能、全功能的分布式推理平台,广泛适配大语言模型(LLM)、语音识别模型、多模态模型等多种AI模型。借助 Xinference,用户可快速实现私有化一键部署——无论是自研模型还是社区热门开源模型,均能轻松上手:https://www.php.cn/link/544d8a7bb8401b0c7450ed9d6950a1fc 都将助您高效接入前沿AI能力,释放更多创新潜力。其核心能力与特色包括:

  • ? 模型部署,极简高效:大幅简化大语言模型、语音识别模型及多模态模型的上线流程,单条命令即可完成完整部署。
  • ⚡️ 模型丰富,开箱即用:内置大量中英文主流大模型,如 Baichuan、ChatGLM2 等,支持一键调用;内置模型库正持续高速扩充中!
  • ? 异构加速,性能跃升:依托 ggml 引擎,实现 CPU 与 GPU 协同推理,显著降低响应延迟,提升整体吞吐量。
  • ⚙️ 接口多元,灵活集成:提供 OpenAI 兼容 RESTful API(含 Function Calling)、RPC、CLI 命令行工具、Web 可视化界面等多种交互方式,便于模型管理与系统对接。
  • ? 分布式调度,集群协同:原生支持跨节点分布式部署,结合智能资源调度器,按模型规模动态分配至不同设备,最大化利用集群算力。
  • ? 生态开放,无缝融合:深度兼容 LangChain、LlamaIndex、Dify、Chatbox 等主流 AI 开发框架与工具链,开箱即连。

———————————————————————— ————————————————————————

? Xinference v1.16.0 版本更新概览

✅ 本次重点升级

  • ? 新增瀚博半导体 GPU(VACC)支持:正式适配 VACC 架构,并扩展至视觉语言模型(VLM)推理场景,进一步拓展国产硬件生态覆盖。
  • ? Apple MLX 后端新增持续批处理(Continuous Batching):MLX 聊天类模型现已支持并发请求处理,大幅提升服务吞吐与并发响应能力。
  • ? 新增模型支持
    * Qwen-Image-Layered
    * Fun-ASR-Nano-2512
    * Fun-ASR-MLT-Nano-2512
  • ⚠️ Python 版本要求调整:自本版本起,最低运行环境为 Python 3.10,不再兼容 Python 3.9 及更早版本。

? 社区版更新详情

? 快速安装方式

  • pip 安装:pip install 'xinference==1.16.0'
  • Docker 部署:拉取最新镜像,或在已有容器内通过 pip 升级

? 新增模型支持

  • Qwen-Image-Layered
  • Fun-ASR-Nano-2512
  • Fun-ASR-MLT-Nano-2512

✨ 功能新增

PDFlux
PDFlux

PDF内容提取+智能问答神器,结合了科研级精准的非结构化文档解析能力,以及ChatGPT的智能问答能力。

下载
  • vLLM 后端:新增对 DeepSeek-V3.2 / DeepSeek-V3.2-Exp 的 vLLM 引擎支持
  • VACC(瀚博半导体 GPU):全面支持 LLM 与 VLM 场景下的推理加速
  • MLX:聊天模型启用持续批处理机制,实现高并发推理
  • Rerank 模块:支持异步批量处理(async batch)
  • 模型启动配置:新增 architectures 字段用于精细化识别模型架构
  • Web UI:图像类模型支持通过环境变量及自定义参数灵活配置
  • MiniMaxM2ForCausalLM:新增 vLLM 后端兼容支持

? 能力增强

  • 副本调度优化:GPU index 分配策略更连续,提升资源利用率
  • Docker 镜像升级:基础环境升级至 CUDA 12.9,集成 vLLM v0.11.2
  • 新增 torchaudio 2.9.0 兼容支持
  • 模型元数据(JSON)持续完善:覆盖 DeepSeek、GLM、LLaMA、Jina、Z-Image 等多个系列

? 问题修复

  • 修复 PaddleOCR-VL 输出结果异常问题
  • 修复自定义 embedding / rerank 模块的解析错误
  • 修复 CPU 模式下启动失败及多 worker 启动异常
  • 修复 OCR API 返回空响应的问题
  • 修复 n_gpu 参数解析与传递逻辑缺陷

? 文档更新

  • 补充新上线模型的详细说明文档
  • 完善 v1.15.0 版本发布日志内容

? 企业版专属升级

  • 昇腾平台性能强化:在昇腾硬件上实现更高推理效率与更强运行稳定性
  • 微调能力升级:优化全流程微调体验,支持更复杂的企业级训练任务与定制化调优需求

参考链接

———————————————————————— ————————————————————————

衷心感谢每一位社区贡献者对 Xinference 项目的支持与共建!我们也诚挚欢迎更多开发者、研究人员和企业用户加入 Xinference 的使用与开发行列。欢迎前往 https://www.php.cn/link/ac13ef4bd5a77bb7ad082cc2428ae72d 为我们点亮 ⭐ Star,以便第一时间获取后续版本更新通知。

源码地址:点击下载

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
PHP API接口开发与RESTful实践
PHP API接口开发与RESTful实践

本专题聚焦 PHP在API接口开发中的应用,系统讲解 RESTful 架构设计原则、路由处理、请求参数解析、JSON数据返回、身份验证(Token/JWT)、跨域处理以及接口调试与异常处理。通过实战案例(如用户管理系统、商品信息接口服务),帮助开发者掌握 PHP构建高效、可维护的RESTful API服务能力。

178

2025.11.26

什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

402

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

249

2023.10.07

json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

452

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

328

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

373

2023.10.09

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

3

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号