谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

王林

发布时间：2024-09-05 22:26:14

572人浏览过

来源于ZAKER

转载

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。

谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的 tokenizer 所致，而是没有足够的空间来存储用于计数的向量。

谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5 也无法幸免。

如果再进一步，想要找到出现频率最高的一个词，更是难如登天，即便能蒙对给出的具体数量也是错的。

谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

有人认为是词汇的 token 化导致了大模型看到的 " 词 " 和我们的看法不一致，但论文表明，实际情况并不是这么简单。

谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

想数清单词，嵌入维度要够大

Transformer 的计数能力与其嵌入维度 d 和词汇量 m（指词汇表中词的数量，非序列长度）的关系密切相关。

详细的原因，就涉及到了 Transformer 统计词频时的机制。

Transformer 通过一种特殊的嵌入方式，利用嵌入空间的线性结构，巧妙地将计数问题转化为了向量加法。

具体说是将每个词映射到一个独特的正交向量上，在这种表示下，词频可以通过对这些正交向量求和来简单地计算。

谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

然而，这种机制的局限性在于，它要求词汇表中的每个词都有一个独立的正交向量表示，因此嵌入维度必须大于词汇量。

嵌入维度不足时，词向量就无法保持正交性，词频的线性叠加也就无法实现了。

此时 Transformer 要实现计数，可以通过注意力机制（CountAttend）来实现，但需要一个随序列长度 n 线性增长的大型 " 逆转 MLP" 层。

具体来说，模型首先通过注意力赋予被查询词较大的权重，再利用位置编码将注意力权重提取到值向量的最后一个元素，这个元素实际记录了被查询词的出现频率的倒数。

这意味着，模型需要一个大小为 O ( n ) 的 MLP 层来计算 1/x 函数（x 为某个词出现的次数）。

但进一步分析表明，任何常数层 ReLU 网络都无法在 o ( n ) 的神经元数量下逼近 1/x 函数。

因此，对于固定规模的 Transformer，这种方案无法推广到任意长度的序列。当序列长度超出训练集长度时，模型的计数能力会急剧恶化。

谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

长度非主要因素，词汇表中数量是关键

为了验证这一结论，作者一共进行了两个实验。

第一个实验，是在一个从头开始训练的 Transformer 模型上进行的，具体有关参数如下：

Pixelfox AI

多功能AI图像编辑工具

下载

使用一个由两个 Transformer 层、四个注意力头组成的标准模型；

嵌入维度 d 的取值范围为 8 到 128；

对每个固定的 d，词汇量 m 从 5 到 150 变化，分别测试 20 个不同的值；

模型使用 Adam 优化器从零开始训练，批量大小为 16，学习率为 10^-4，训练 10 万步。

训练和评测数据通过随机采样生成。首先从大小为 m 的词汇表中均匀采样 n 个词，构成一个长度为 n 的序列。

序列长度 n 设置为 n=10m，平均每个词出现的次数固定为 10 次，一共使用了 1600 个样本进行测试。

作者发现，随着词汇量的增加，模型的计数准确率呈阶梯状下降，临界点恰好出现在词汇量超过嵌入维度的时刻。

为了进一步量化模型的计数能力，作者定义了一个指标 m_thr，表示模型的计数准确率下降到 80% 时的临界词汇量。

直观地说，m_thr 反映了在给定嵌入维度下，模型可以 " 承受 " 的最大词汇量，m_thr 越大说明模型的计数能力越强。

结果显示，对于计数（QC）和找出最高频词（MFC）的任务，m_thr 都随嵌入维度 d 的增大而近似线性增长。

谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

第二个实验则是在预训练的 Gemini 1.5 模型上开展，在这个实验中，作者更关注词汇量对计数能力的影响。

他们设计了一系列计数任务，每个任务使用不同大小的词汇表，并把每个词在序列中出现的平均次数固定。

这意味着，在实验组当中，词汇量越大，序列长度也就越长。

作为对照，作者还设置了一个 "Binary Baseline"，词汇表中只有固定为两个词，但序列长度与主实验组相同。

这样一来，就可以判断出带来模型计数误差的究竟是词汇量还是序列长度。

实验结果显示，随着词汇量的增加，Gemini 1.5 在计数任务上的平均绝对误差显著上升，而 "Binary Baseline" 的误差要低得多。

谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

这表明，词汇量的增加，而非序列长度的增长，是导致大模型计数能力下降的主要原因。

不过作者也表示，虽然这项研究一定程度上划定了大模型计数能力的上下界，但这些界限还不够紧致，距离理想的结果还有一定差距。

同时，作者也没有探究增加 Transformer 的层数是否会改变这一结论，需要未来开发新的技术工具才能进一步验证。

论文地址：

https://arxiv.org/abs/2407.15160

马斯克真没吹牛！世界模型 Genie 3 一键打造 GTA6 不是梦

真我 Neo8 今晚发布，OPPO 商城上线 realme 品牌专区，绿厂三兄弟齐聚

掌上时光机 Evo Cinema 体验评测

Intel Arrow Lake-S 桌面处理器发布日期确认：直面锐龙 9000 系列

realme GT7 Pro 核心配置确认：骁龙 8 Gen 5 与超百瓦快充成标配

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6511

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

840

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1088

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1808

2024.03.01

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2795

2024.08.16

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板