0

0

谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

王林

王林

发布时间:2024-09-05 22:26:14

|

572人浏览过

|

来源于ZAKER

转载

大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。

谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。

如果再进一步,想要找到出现频率最高的一个词,更是难如登天,即便能蒙对给出的具体数量也是错的。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

有人认为是词汇的 token 化导致了大模型看到的 " 词 " 和我们的看法不一致,但论文表明,实际情况并不是这么简单。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

想数清单词,嵌入维度要够大

Transformer 的计数能力与其嵌入维度 d 和词汇量 m(指词汇表中词的数量,非序列长度)的关系密切相关。

详细的原因,就涉及到了 Transformer 统计词频时的机制。

Transformer 通过一种特殊的嵌入方式,利用嵌入空间的线性结构,巧妙地将计数问题转化为了向量加法。

具体说是将每个词映射到一个独特的正交向量上,在这种表示下,词频可以通过对这些正交向量求和来简单地计算。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

然而,这种机制的局限性在于,它要求词汇表中的每个词都有一个独立的正交向量表示,因此嵌入维度必须大于词汇量。

嵌入维度不足时,词向量就无法保持正交性,词频的线性叠加也就无法实现了。

此时 Transformer 要实现计数,可以通过注意力机制(CountAttend)来实现,但需要一个随序列长度 n 线性增长的大型 " 逆转 MLP" 层。

具体来说,模型首先通过注意力赋予被查询词较大的权重,再利用位置编码将注意力权重提取到值向量的最后一个元素,这个元素实际记录了被查询词的出现频率的倒数。

这意味着,模型需要一个大小为 O ( n ) 的 MLP 层来计算 1/x 函数(x 为某个词出现的次数)。

但进一步分析表明,任何常数层 ReLU 网络都无法在 o ( n ) 的神经元数量下逼近 1/x 函数。

因此,对于固定规模的 Transformer,这种方案无法推广到任意长度的序列。当序列长度超出训练集长度时,模型的计数能力会急剧恶化。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

长度非主要因素,词汇表中数量是关键

为了验证这一结论,作者一共进行了两个实验。

第一个实验,是在一个从头开始训练的 Transformer 模型上进行的,具体有关参数如下:

使用一个由两个 Transformer 层、四个注意力头组成的标准模型;

医真AI+开放平台
医真AI+开放平台

医真AI+ 医学AI开放平台

下载

嵌入维度 d 的取值范围为 8 到 128;

对每个固定的 d,词汇量 m 从 5 到 150 变化,分别测试 20 个不同的值;

模型使用 Adam 优化器从零开始训练,批量大小为 16,学习率为 10^-4,训练 10 万步。

训练和评测数据通过随机采样生成。首先从大小为 m 的词汇表中均匀采样 n 个词,构成一个长度为 n 的序列。

序列长度 n 设置为 n=10m,平均每个词出现的次数固定为 10 次,一共使用了 1600 个样本进行测试。

作者发现,随着词汇量的增加,模型的计数准确率呈阶梯状下降,临界点恰好出现在词汇量超过嵌入维度的时刻。

为了进一步量化模型的计数能力,作者定义了一个指标 m_thr,表示模型的计数准确率下降到 80% 时的临界词汇量。

直观地说,m_thr 反映了在给定嵌入维度下,模型可以 " 承受 " 的最大词汇量,m_thr 越大说明模型的计数能力越强。

结果显示,对于计数(QC)和找出最高频词(MFC)的任务,m_thr 都随嵌入维度 d 的增大而近似线性增长。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

第二个实验则是在预训练的 Gemini 1.5 模型上开展,在这个实验中,作者更关注词汇量对计数能力的影响。

他们设计了一系列计数任务,每个任务使用不同大小的词汇表,并把每个词在序列中出现的平均次数固定。

这意味着,在实验组当中,词汇量越大,序列长度也就越长。

作为对照,作者还设置了一个 "Binary Baseline",词汇表中只有固定为两个词,但序列长度与主实验组相同。

这样一来,就可以判断出带来模型计数误差的究竟是词汇量还是序列长度。

实验结果显示,随着词汇量的增加,Gemini 1.5 在计数任务上的平均绝对误差显著上升,而 "Binary Baseline" 的误差要低得多。

 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

这表明,词汇量的增加,而非序列长度的增长,是导致大模型计数能力下降的主要原因。

不过作者也表示,虽然这项研究一定程度上划定了大模型计数能力的上下界,但这些界限还不够紧致,距离理想的结果还有一定差距。

同时,作者也没有探究增加 Transformer 的层数是否会改变这一结论,需要未来开发新的技术工具才能进一步验证。

论文地址:

https://arxiv.org/abs/2407.15160

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6093

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

806

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1241

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1980

2024.08.16

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

9

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

21

2026.01.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

13

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

33

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.2万人学习

Go 教程
Go 教程

共32课时 | 3.8万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号