为什么 DeepSeek 大规模部署很便宜，本地很贵

看不見的法師

发布时间：2025-08-04 12:42:02

821人浏览过

来源于php中文网

原创

为什么 deepseek 大规模部署很便宜，本地很贵

作者 | Sean Goedecke
译者 | 王强
策划 | Tina

为何 DeepSeek-V3 在大规模服务场景下表现得又快又省，而在本地运行时却显得缓慢且成本高昂？为何某些 AI 模型刚开始响应迟缓，但一旦启动后速度就大幅提升？

AI 推理服务商常提到一个核心矛盾：吞吐量与延迟之间的权衡。对于任意给定模型，你只能在“高吞吐+高延迟”和“低吞吐+低延迟”之间做选择。实际上，部分模型由于 GPU 利用效率偏低，必须依赖高延迟的服务模式，才能实现可接受的吞吐表现——DeepSeek-V3 正是这类模型的典型代表。

这一权衡的核心在于推理批处理大小的设定：服务商并非对单个请求内部进行批处理，而是将数十乃至上百个并发用户的请求合并处理。Transformer 架构的一大特点是，同时计算一批输出几乎与计算单条输出耗时相当。这是怎么做到的？

1 什么是批处理推理？

GPU 擅长执行大规模矩阵乘法（GEMMs）。假设你要将一个 token 输入模型处理（即通过权重矩阵进行变换，忽略其他结构细节）。这个 token 被表示为一个与模型隐藏层维度匹配的向量（1x模型宽度），然后乘以权重矩阵——这就是一次 GEMM 运算。但如果你有十个 token，也可以将它们堆叠成一个 10x 维度的矩阵，一次性完成乘法，仍只算一次 GEMM。相比执行十次小规模 GEMM，这种方式快得多。

因此，推理服务器的工作流程大致如下：

用户请求携带提示词到达
提示词经过预填充（包括注意力计算），生成 KV 缓存和一个 token 向量（1x模型大小）
该向量进入处理队列
GPU 服务从队列中拉取一批请求（如 128 个），堆叠成 128x 模型大小的矩阵，送入前馈网络进行计算
输出结果被拆分为 128 个独立 token
对应原始请求的那个 token 被流式返回给用户
若未生成结束符，则回到第 2 步继续生成下一个 token

关键点在于：服务器自行决定批处理的规模。这正是吞吐与延迟权衡的来源。如果不批处理，逐个处理 token，用户无需等待（跳过排队步骤），延迟极低（前提是 GPU 资源充足）。但如果采用大批量批处理，用户需等待批次填满，延迟上升，但 GPU 利用率更高，吞吐量显著提升。

为何 GPU 处理大矩阵比多个小矩阵更高效？原因有二：
其一，每次向 GPU 发送指令都有固定开销，一个大矩阵只需一次调用；
其二，每个新任务都需要加载权重，若频繁执行小 GEMM，大量时间将耗费在数据搬运而非计算上。

2 为何某些模型需要大批次运行？

推理服务器通常设有一个“收集窗口”，请求在此窗口内排队等待。聊天类服务的目标延迟一般为 5–10 毫秒，而高吞吐后端可能容忍高达 200 毫秒的延迟。若请求在窗口开启时到达，它可能要等到窗口关闭才能被处理。当窗口关闭时，所有积压请求被打包成一个批次（多个 1x 向量拼接为单一 128x 矩阵），统一送入模型处理。这种操作周期常被称为一个“tick”。

正如上述机制所示，理论上任何模型都可以在不同批大小下运行。批处理本身不限制模型类型。然而，我们可以设计出 GPU 效率极低的模型，使得不进行大规模批处理就无法达到实用性能。

3 专家混合模型为何依赖更大批处理？

以专家混合模型（MoE）为例，如 DeepSeek-V3 或传闻中的 GPT-4 所用架构。这类模型可包含数百个“专家”（独立的前馈网络模块），路由机制为每个 token 动态选择激活其中一部分。但这种结构对 GPU 来说效率低下——原因在于：GPU 偏好少量大矩阵运算，而 MoE 强制进行大量小型矩阵乘法。

除非以整批方式处理，否则吞吐量会严重受限。

设想两种收集窗口：5 毫秒 vs 200 毫秒。假设在 5 毫秒内收到 10 个请求。若专家数量众多，某些专家可能仅需处理一两个 token，导致其实际批大小远低于总请求数。这使得每个专家的计算单元利用率极低，无法发挥 GPU 的并行优势。

相比之下，200 毫秒窗口能积累更多请求，使每个专家获得足够多的 token 来维持高效运算。因此，MoE 模型必须牺牲延迟换取吞吐，否则整体效率将急剧下降。

4 大型模型为何需要大批次避免管道空转？

对于层数极多的大型模型，保持 GPU 持续满载是一项挑战。现代大模型往往包含数百个 Transformer 层，必须采用流水线并行（pipeline parallelism）：不同 GPU 分别负责不同层段。否则，单卡内存无法容纳全部权重，频繁换入换出将极大拖慢速度。

在推理过程中，每个 token（通常以微批次形式）依次流经各 GPU 层段。

Joker AIx

一站式AI创意生产平台，覆盖图像、视频、音频、文案全品类创作

下载

管道效率取决于层数和批处理窗口大小。在一个“tick”中处理一批 token 时，初期后端 GPU 尚无输入（预热阶段），末期前端 GPU 提前空闲（排水阶段）。这些空闲期称为“预热”和“排水”。若窗口太小、tick 过于频繁，则预热与排水时间占比过高，浪费大量算力。

更严重的是，当窗口极短且请求数少于层数时，会出现“管道气泡”——即尚未完成一轮处理，管道已提前进入排水状态。这对吞吐影响巨大。为避免气泡，服务商必须设置足够宽的收集窗口，但这直接带来了更高的延迟。

5 能否让队列始终保持满载？

既然大型服务商拥有海量并发请求，为何不能持续填满队列，彻底消除预热与排水？换句话说，能否抛弃“tick”机制，让 token 微批次像流水一样不间断流动？

理论上可行。每个用户的 token 生成必须顺序进行（前一个未完成不能生成下一个），但服务商整体流量足够大，理应能维持稳定输入流。

问题出在实际实现上，尤其是注意力机制的批处理限制：要批量执行注意力 GEMM，所有序列必须具有相同的上下文长度（即历史 token 数相同）。否则，KV 缓存的形状不一致，无法堆叠成统一矩阵。因此，系统只能将相同长度请求分组处理，而不能简单维护一个动态队列。

尽管已有研究尝试解决这一问题（如 https://www.php.cn/link/200734077bb5e01fbe9b973d0d50ee6a tick 处理注意力，而用连续流处理前馈网络（FFN）？

难点在于内存开销：FFN 依赖注意力输出作为输入，若两者异步运行，中间结果需暂存内存，成本极高。现代推理系统倾向于将注意力与 FFN 合并为少数几个大型 GEMM，在同一操作中完成。若拆分到不同 GPU 或阶段执行，则需额外通信和调度开销，反而降低效率。

6 总结

GPU 在处理大型矩阵乘法时效率最高。将多个 token 堆叠成一个大矩阵进行计算，比逐个处理能获得更高的 token 吞吐量。

在解码阶段，注意力机制要求同批 token 具有相同上下文长度，迫使调度器以“tick”方式运行。每个 tick 中打包的 token 数量即为批大小，这些 token 来自不同用户。你无法对同一用户的不同 token 批处理，因为后续 token 依赖前序输出，因此高效批处理依赖高并发用户流量。

更大的批处理意味着更高延迟——用户可能需等待最多 200 毫秒直到批次填满，但它提升了 FFN 阶段的 GEMM 规模，从而提高整体吞吐。

深层模型（长管道）需要更大的批处理来避免管道气泡，确保每个 tick 的 token 数超过层数。
MoE 模型则需高延迟服务以提升效率：每个专家仅处理分配给它的 token，只有全局批处理足够大，才能让每个专家都有足够任务可做。

推理服务商选择批大小/窗口时，目标是消除管道气泡并让专家模块充分饱和。高批大小带来更高吞吐，但代价是延迟增加。

像 DeepSeek 这样的模型，既是 MoE

本地部署 DeepSeek：打造你的专属 AI 推理环境，简单明了适合新手

视频号官网登录页面微信视频号创作中心官方入口

抖音怎么设置自动回复_抖音私信自动回复设置教程

pixiv网页版官网入口地址 pixiv网页版登录入口页面

2025企微SCRM选型避坑实录：7款工具横评，微伴凭AI客户洞察杀出重围

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6629

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

843

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2191

2024.03.01

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

443

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

605

2023.08.10

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2915

2024.08.16

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

136

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板