ChatGPT模型参数≠1750亿，有人用反证法进行了证明

WBOY

发布时间：2023-04-08 11:51:06

1387人浏览过

来源于51CTO.COM

转载

ChatGPT 的火热持续到了今天，围绕它的爆点新闻和技术解读不断涌现。关于其参数量，有一种普遍的假设认为，ChatGPT 的参数量与 GPT-3 论文中介绍的 1750 亿参数模型相同。但是，深耕于大语言模型领域工作的人很清楚这不是真的。通过对 A100 GPU 的内存带宽分析，就会发现 ChatGPT API 的实际推理速度要比 1750 亿 Dense equivalent 模型的最大理论推理速度快很多。

本文将使用反证法来证明并支持上面的论点，只需要使用大学里学到的一些理论知识。另外需要注意，还存在相反的问题，即有人声称 ChatGPT 只有 X 亿个参数（X 远远低于 1750 ）。但是，这些说法无法得到验证，因为说这些话的人通常是道听途说。

接下来是详细的论证过程。

反证法

先假设 ChatGPT 模型有 1750 亿个参数，通常用 INT8 格式来存储 LLM 权重，以便进行更低延迟的推理、更高的吞吐量和更低的内存需求（比用 float16 格式来存储要少两倍的内存）。每个 INT8 参数需要 1 个字节进行存储。简单的计算就知道，模型需要 175GB 的存储空间。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片出自 INT8 SmoothQuant 论文，地址：https://arxiv.org/abs/2211.10438

就推理而言，GPT 风格的语言模型在每次前向传递时都是「自回归」的，它预测下一个最可能的 token（对于类似 ChatGPT 的 RLHF 模型，它会预测其人类标注者更偏好的下一个 token）。这意味着要生成 200 个 token，因此需要执行 200 个前向传递。对于每个前向传递，我们需要将模型的所有权重从高带宽（HBM）内存加载到矩阵计算单元（GPU 的张量计算核）中，也就是说需要为每个前向传递加载 175GB 的权重。

在微软 Azure 平台上，一个节点上可以分配 A100 的最大数量是 8。这意味着每个模型实例的最大张量并行度是 8。因此，其实不需要为每个前向传递加载 175GB 的权重，而只需要为每个前向传递的每个 GPU 加载 21.87GB，因为张量并行性可以在所有 GPU 上并行化权重和计算。

图片出自 Megatron-LM 论文，地址：https://arxiv.org/abs/1909.08053

在 A100 80GB SXM 版本上，最大内存带宽是 2TB/s。这意味着在 batchsize=1 的情况下（受内存带宽限制），前向传递最大的理论速度将达到 91 次 / 秒。同时，大部分时间都花在加载权重上，而不是计算矩阵乘法。

注意：对于 fp16/bfloat16，当受内存带宽限制时，最大的理论前向传递速度达到 45.5 次 / 秒。

ChatGPT 的实际延迟是多少？

在夜间运行 Python 编写的脚本（夜间运行的开销更低），来测试通过 OpenAI API 使用 ChatGPT 的延迟，前向传递能够获得的最大实证速度是 101 次 / 秒。本文使用了实验的最大实证结果，这是因为需要从 OpenAI 的后端和动态批处理系统获得最低开销。

结论

根据前面假设和论证，我们可以发现存在矛盾的地方，因为基于实证的结果比基于 A100 平台内存带宽的最大理论结果要快得多。因此可以得出结论，OpenAI 用于推理的 ChatGPT 模型绝对不是等价于 1750 亿参数的稠密模型。

常见问题问答

1、为什么预测 ChatGPT 推理模型的参数量而不是训练模型的参数量？

使用内存带宽方法来估计模型参数数量，这只适用于推理模型。我们无法确切地知道 OpenAI 是否应用了蒸馏等技术，使其推理模型比训练模型更小。

许多昆虫都有一种幼虫形态，其在从环境中提取能量和营养方面进行了优化，而完全不同的成体形态则在旅行和繁殖的非常不同的要求方面进行了优化。—— 出自 Geoffrey Hinton、Oriol Vinyals、Jeff Dean，2015 年。

腾讯交互翻译

腾讯AI Lab发布的一款AI辅助翻译产品

下载

2、是否有做其它的假设？

证明中其实还包括 3 个假设：

假设计算巨大矩阵乘法所需的时间相对于每个前向传递加载参数的时间为 0；
假设进行 GPU 之间的通信所需的时间也为 0。如果不假设 GPU 之间的通信和矩阵乘法所需的时间为 0，则 1750 亿参数模型的每秒最大理论 token 将会减少；
假设 ChatGPT 是基于 Transformer 架构的变种。

3、Dense Equivalent 是什么意思？

过去几年中，研究人员已经进行关于稀疏混合专家 LLM（如 Switch Transformer）的研究。Dense equivalent 表示每次前向传递使用多少参数。使用本文所述的方法，无法证明 ChatGPT 不是一个 1750 亿参数的稀疏 MoE 模型。

4、是否考虑过 KV 缓存 Transformer 推理优化？

就算使用 KV 缓存优化，每次前向传递仍需要加载整个模型，KV 缓存仅在 FLOPs 上节省，但不会减少内存带宽消耗（实际上它会增加，因为需要每次前向传递都加载 KV 缓存）。

5、是否考虑过 Flash Attention？

虽然 Flash Attention 在内存带宽效率和实际时间速度方面表现更好，但每次前向传递仍需要加载整个模型，因此前面的论证仍然成立。

6、是否考虑过管道并行 / 更细粒度的并行策略？

利用 pipeline 并行会导致相同的最大前向传递次数。但是，通过使用 micro-batch 和更大的 batch 大小，吞吐量（总 token 数 / 秒）可以增加。

7、考虑过将张量并行性增加到 8 以上吗？

A100 平台支持每个节点 16 个 A100，但 Azure 不支持此功能。只有 Google Cloud 支持此功能，但几乎没有人使用。Azure 不太可能为 OpenAI 定制一个带有 16 个 A100 的节点，并且不将其发布为公共 GA 版本，以分摊设计或维护新节点的成本。关于节点间的张量并行性，这只是一个可能性，但这是一种不太具成本效益的在 A100 上进行推理的方式。就连英伟达也不建议对节点间的张量并行处理。

8、有没有考虑使用 INT4 存储权重？

尽管使用 INT4 被证明有效，但是 OpenAI 的 GPU Kernel Compiler 不支持 INT4 的加载、存储或矩阵乘法，也没有计划将 INT 加入到他们的技术路线图中。由于不支持 INT4 的加载或存储，你甚至无法像将权重存储为 INT4，然后量化转回高精度格式（如 INT8、bfloat16 等）。

如何快速制作精美的产品详情页文案利用ChatGPT适配各电商平台规则

ChatGPT无法生成内容怎么办_ChatGPT常见故障排查方法【解答】

ChatGPT写工作总结怎么更准确_ChatGPT高质量总结生成技巧【技巧】

ChatGPT新手第一次怎么开始聊天_ChatGPT基础聊天使用方法【指南】

如何解决Excel宏代码报错无法运行利用ChatGPT进行Step-by-Step调试

相关专题

switch语句用法

switch语句用法：1、Switch语句只能用于整数类型，枚举类型和String类型，不能用于浮点数类型和布尔类型；2、每个case语句后面必须跟着一个break语句，以防止执行其他case的代码块，没有break语句，将会继续执行下一个case的代码块；3、可以在一个case语句中匹配多个值，使用逗号分隔；4、Switch语句中的default代码块是可选的等等。

569

2023.09.21

Java switch的用法

Java中的switch语句用于根据不同的条件执行不同的代码块。想了解更多switch的相关内容，可以阅读本专题下面的文章。

441

2024.03.13

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6608

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

842

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2178

2024.03.01

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1030

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

612

2024.08.29

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板