DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了

蓮花仙者

发布时间：2025-11-02 09:35:16

241人浏览过

来源于php中文网

原创

大家好，我是老章，专注 ai 学习与实践。

先来直观体验一下 200 Tokens/s 的生成速度——没有加速，文字飞驰而过，眼睛几乎跟不上输出节奏。

在之前的文章中我提到过，不要再用 Ollama，也不要再依赖 llama.cpp。原因是在测试过程中我发现，虽然 llama.cpp 单请求推理速度极快，但一旦并发上升，性能就出现断崖式下滑。

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了根本原因在于，llama.cpp 并未对张量并行（Tensor Parallelism）和批处理推理（Batch Inference）进行优化，而且未来大概率也不会支持张量并行。因此，它仅适合用于将模型部分或全部卸载到 CPU 的场景。如果你有多块 GPU，更推荐使用 vLLM 或 SGLang 这类专为高性能推理设计的引擎。

事实上，我在之前的多篇本地部署教程中，一直使用的都是 vLLM。

有作者曾指出：张量并行通过将模型每一层的计算拆分到多个 GPU 上执行，使得每块 GPU 只需完成一部分矩阵运算，从而实现各层在不同设备上的并行计算，最终让整体推理速度呈指数级提升。

对此说法，我一直存疑。于是本文就来做一次实测：分别测试单卡、双卡、四卡配置下的推理性能表现。

测试模型选用我最钟爱的 DeepSeek-R1-0528-Qwen3-8B。此前在双 4090 上部署该模型时已验证过其性能，上下文长度默认设为 128K。由于显存需求高达 24GB，单张 4090 难以承载，双卡才能顺利运行，最高推理速度约为 90 Tokens/s。

本次测试硬件为 H200，单卡配备 141GB 显存。

测试工具采用 LLM-Benchmark。

单卡运行

启动命令如下：

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了显存占用直接飙升至 126GB。可见若不加限制，模型会尽可能占满可用显存。可通过参数 --gpu-memory-utilization 控制显存使用率。

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了性能测试结果如下：

Copy Leaks

AI内容检测和分级，帮助创建和保护原创内容

下载

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了在 50 并发下，平均 TPS 达到 83；
100 并发时，系统每秒可处理 47 个请求，平均生成速度为 49 Tokens/s。

双卡并行

双卡模式下，启动方式基本一致，仅增加 --tensor-parallel-size 2 参数，并指定两张 GPU。

每张卡同样占用约 126GB 显存。

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了测试结果如下：

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了单并发情况下，TPS 从 142 提升至 172；
50 并发时，平均 TPS 由单卡的 83 上升到 91；
100 并发下，每秒仍处理 47 个请求，平均生成速度为 50 Tokens/s，提升微弱。

四卡并行

设置 --tensor-parallel-size 4

需要注意的是，我的第 4 和第 5 张 GPU 上还运行着其他模型任务。

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了测试结果如下：

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了单并发 TPS 进一步提升至 208；
50 并发下，平均 TPS 达到 94；
100 并发时，每秒处理请求数为 48，平均生成速度维持在 50 Tokens/s，依旧无明显增长。

八卡并行未做测试，因其余 GPU 已被其他服务占满，不便停机调整。

我用 Gemini 绘制了一张柱状图，用于对比不同并行策略下的 TPS 表现：

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了总结：

在本地部署大模型时启用张量并行，确实能显著提升单请求的推理速度（TPS），但在高并发场景下，整体吞吐能力的提升趋于平缓，并不具备线性扩展效应。不过相比 llama.cpp 在并发压力下性能骤降的表现，vLLM 的稳定性无疑要优秀得多。

小红书聚光直播怎么投？直播有什么用？

唯品会售后服务怎么样唯品会售后处理流程说明

抖音新手怎么快速涨粉抖音起号涨粉基础操作方法【步骤】

红果短剧PC网页版入口官方在线观看网址

红果短剧网页版网址大全官方授权登录入口

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关标签:

工具 ai 大模型性能测试 gemini deepseek 本地部署 qwen batch 并发 llama

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：《支付宝》免密支付关闭方法2025 下一篇：《地下城堡4：骑士与破碎编年史》烈风峡谷通关攻略

作者最新文章

HTML下拉框如何设验证提示_HTML下拉框加title示错信息【验证】

2026-01-18 21:23

html5网站模板怎么调整区块排列顺序_html5调排序办法【步骤】

2026-01-18 21:29

IE浏览器html5虚拟键盘不弹_触发IE的虚拟键盘法【触发】

2026-01-18 21:32

HTML怎样设背景图片线性渐变_HTML线性渐变背景图片法【过渡】

2026-01-18 21:32

乐平镇锚定“全国宠物度假小镇” 书写大湾区文旅融合新篇章

2026-01-18 21:50

悟空浏览器怎样导出证书为PEM格式悟空浏览器导出PEM格式证书窍门【要点】

2026-01-18 21:59

猎豹浏览器安全版官网入口猎豹浏览器官方下载通道

2026-01-18 22:06

微博超话怎样运营涨粉_微博超话主持维护技巧【经验】

2026-01-18 22:06

行业定制类小程序外包多少钱?

2026-01-18 22:07

战舰联盟 SSR 将领蒙巴顿终极指挥官攻略

2026-01-18 22:09

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档