Python 模型服务的 autoscaling

舞夢輝影

发布时间：2026-02-19 10:13:43

133人浏览过

来源于php中文网

原创

uvicorn 的 --workers 是启动时静态分配的进程数，不感知请求量、cpu 或内存变化，无法自动增减，因此不能用于 autoscaling；它仅设定了并发上限，与 kubernetes hpa 或云厂商自动扩缩容有本质区别。

python 模型服务的 autoscaling

为什么 `uvicorn` 自带的 `--workers` 不能当 autoscaling 用

因为 --workers 是启动时静态分配的进程数，不感知请求量、CPU 或内存变化，也不会自动增减。它只是预设的并发能力上限，和 Kubernetes 的 HPA 或云厂商的自动扩缩容完全不是一回事。

常见错误现象：uvicorn --workers 4 部署后，QPS 从 100 突增到 2000，响应延迟飙升但 worker 数纹丝不动；或者流量低谷期 4 个 worker 全空转，浪费资源。

适用场景：稳定流量、离线服务、本地调试——此时固定 worker 更可控
不适用场景：Web API、用户直连模型服务、突发流量明显的推理接口
性能影响：worker 过少会排队阻塞；过多则加剧 GIL 争抢（尤其 CPU 密集型模型）或内存溢出（如加载多个 transformers 模型实例）

在 FastAPI + Uvicorn 中接入 `kubernetes` HPA 的关键配置点

核心不是改 Python 代码，而是让 K8s 能正确采集指标并触发扩缩容。Python 层只需暴露健康/就绪探针和资源用量信号。

常见错误现象：HPA 显示 unknown metrics，或 targetCPUUtilizationPercentage 一直为 <unknown></unknown>，扩缩容不触发。

立即学习“Python免费学习笔记（深入）”；

LLaMA-Factory Online

在线大模型训练与微调服务平台

下载

必须启用 metrics-server（不是 heapster，后者已弃用）
Deployment 中需设置 resources.requests（如 memory: 2Gi），否则 HPA 无法计算利用率
就绪探针（readinessProbe）建议指向 /health，避免把正在加载大模型的 Pod 提前纳入流量
避免在 livenessProbe 中调用模型推理逻辑——可能因冷启延迟导致误杀

`torch.cuda.memory_allocated()` 不能直接喂给 HPA，但可以用来做内部过载保护

GPU 显存是模型服务最关键的瓶颈，但 K8s 原生 HPA 不支持自定义 GPU 指标（除非部署 prometheus-device-plugin-exporter + custom-metrics-apiserver）。所以更务实的做法是在 Python 层拦截过载。

常见错误现象：多个请求同时触发 model.generate()，显存爆掉抛出 CUDA out of memory，整个 worker crash。

用 torch.cuda.memory_allocated() 在每次推理前检查，超过阈值（如 90%）直接返回 503 Service Unavailable
注意：该函数返回字节，别写成 > 0.9 这种无单位比较
别依赖 torch.cuda.empty_cache() 来“腾地方”——它不释放被缓存的显存，只释放未被引用的缓存块
搭配 asyncio.Semaphore 限制并发请求数，比纯靠显存判断更稳定

用 `ray serve` 替代手写 autoscaling 逻辑的取舍

如果你的模型服务需要细粒度扩缩（比如按每秒请求数、按 pipeline 阶段、按模型版本隔离），ray serve 的内置 autoscaler 比自己搭 K8s + custom metrics 快得多，但代价是引入新运行时。

常见错误现象：用 ray.init(address="auto") 在容器里启动失败；或 serve.run() 后请求 502，查日志发现 RayActorError。

必须在容器中启动 ray start --head --port=6379（非默认行为），否则 Serve 控制面起不来
num_replicas 设为 "auto" 时，依赖 autoscaling_config 中的 min_replicas/max_replicas 和 lookback_window_s
每个 Deployment 默认共享一个 Python 进程，模型加载开销小；但若需多模型隔离，得用 ray_actor_options={"num_gpus": 0.5} 显式切分资源
兼容性注意：不支持 Windows 容器；与某些 C++ 扩展（如 flash-attn）偶发 ABI 冲突

真正难的不是配参数，是厘清你要扩的是什么：是并发连接数？是每秒请求数？还是 GPU 显存使用率？三者对应的监控点、响应延迟、扩缩节奏完全不同。没想清楚这点，所有配置都是临时止痛。

Python pulsar-client 的 python 异步支持

Python 大整数运算的性能特性

Python uv 的极速依赖解析与安装

Python 使用 C 扩展提升性能的思路

Python tortoise-orm 的生产迁移经验

相关专题

Python FastAPI异步API开发_Python怎么用FastAPI构建异步API

Python FastAPI 异步开发利用 async/await 关键字，通过定义异步视图函数、使用异步数据库库 (如 databases)、异步 HTTP 客户端 (如 httpx)，并结合后台任务队列（如 Celery）和异步依赖项，实现高效的 I/O 密集型 API，显著提升吞吐量和响应速度，尤其适用于处理数据库查询、网络请求等耗时操作，无需阻塞主线程。

2025.12.22

Python 微服务架构与 FastAPI 框架

本专题系统讲解 Python 微服务架构设计与 FastAPI 框架应用，涵盖 FastAPI 的快速开发、路由与依赖注入、数据模型验证、API 文档自动生成、OAuth2 与 JWT 身份验证、异步支持、部署与扩展等。通过实际案例，帮助学习者掌握使用 FastAPI 构建高效、可扩展的微服务应用，提高服务响应速度与系统可维护性。

223

2026.02.06

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1529

2023.10.19

PHP接口编写教程

本专题整合了PHP接口编写教程，阅读专题下面的文章了解更多详细内容。

423

2025.10.17

php8.4实现接口限流的教程

PHP8.4本身不内置限流功能，需借助Redis（令牌桶）或Swoole（漏桶）实现；文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2260

2025.12.29

java接口相关教程

本专题整合了java接口相关内容，阅读专题下面的文章了解更多详细内容。

2026.01.19

windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口等等。怎么查看windows端口占用情况呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

1161

2023.07.26