0

0

Tokens在AI中的作用:从零开始学起

狼影

狼影

发布时间:2025-08-15 15:14:17

|

1046人浏览过

|

来源于php中文网

原创

Tokens是AI处理文本的最小单位,通过分词将句子拆解为单词或子词片段。

tokens在ai中的作用:从零开始学起 - php中文网

在人工智能(特别是语言模型)的世界里,Tokens可以被理解为模型处理信息的最小单位。就像我们用单词和标点符号组成句子一样,AI模型使用Tokens来读取、理解和生成文本。它们是AI理解人类语言的基石。

2025年虚拟货币主流交易所:

币安 

欧易 

火币 

什么是Tokens?

基本概念

当我们向一个AI模型输入一段文字时,它不会直接“阅读”整个句子。相反,它会首先通过一个叫做“Tokenization”(分词)的过程,将这段文字分解成一个个更小的部分,这些部分就是Tokens。一个Token可以是一个完整的单词,也可以是单词的一部分(称为子词),甚至可以是一个标点符号或者一个空格。

一个简单的例子

让我们看看一个句子是如何被分解的:

句子: I love neural networks.

它可能被分解成这样的Tokens:

[ "I", "love", "neural", "networks", "." ]

对于更复杂的单词,模型可能会使用子词分解:

句子: Tokenization is incredibly useful.

它可能被分解成:

[ "Token", "ization", "is", "in", "credibly", "useful", "." ]

通过这种方式,即使模型从未见过“incredibly”这个词,它也可能认识“in”和“credibly”这两个部分,从而推断出整个单词的含义。

Tokens在AI模型中如何工作?

将文本转换为数字

计算机无法直接理解文字,它们只能处理数字。因此,在分词之后,模型会查找一个巨大的“词汇表”,并将每一个Token转换成一个独一无二的数字ID。例如,“love”可能对应数字784,“neural”可能对应3591。

所以,句子 "I love neural networks." 最终会变成一串类似 [ 40, 784, 3591, 6281, 13 ] 的数字序列,这才是模型真正处理的数据。

理解上下文和关系

一旦文本被转换成数字序列,AI模型就可以对其进行复杂的数学计算。通过在海量数据上进行训练,模型学会了这些数字(Tokens)之间的统计关系和模式。它知道哪些Token倾向于一起出现,以及它们在不同序列中的含义。这就是AI理解语法、语境和语义的方式。

生成新内容

当我们需要AI生成回答时,过程是相反的。模型会根据我们输入的内容,预测出下一个最有可能出现的Token的数字ID。然后,它将这个数字ID转换回对应的文本Token,并将其作为输出的一部分。接着,它将这个新生成的Token考虑到上下文中,继续预测下一个Token,如此循环,直到生成完整的句子或段落。

为什么Tokens很重要?

处理未知词汇

子词分词(Subword Tokenization)机制让模型非常灵活。它能够处理拼写错误、新的网络俚语或者它从未见过的专业术语,因为它总是可以尝试将未知单词分解成已知的子词部分来理解。

计算成本和限制

Tokens是衡量AI模型工作量的基本单位。大多数模型都有一个“上下文窗口”限制,即它们一次能处理的Token数量是有限的(例如4096或128000个Tokens)。此外,许多AI服务的费用是根据输入和输出的总Token数量来计算的。因此,理解Token数量有助于我们管理使用成本和模型的输入长度。

AI Tokens与加密世界中的“Token”

完全不同的概念

需要特别强调的是,人工智能领域中的“Token”与区块链或加密世界中的“Token”(通常翻译为“代币”)是两个完全不同的概念,尽管它们共享同一个英文单词。

AI Tokens:是数据处理的单位,是文本被分解成的片段,用于模型的计算和理解。

加密Tokens:是一种数字资产,代表着某种价值、权益或功能。它们可以被存储在数字账户中,并通过一种称为挖k的过程获得。这些资产的设计目的是用于去中心化应用或作为价值储存手段。

简而言之,一个是信息处理的基本单元,另一个是数字世界中的资产。在讨论AI时,我们所说的Tokens始终指的是前者。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6099

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

810

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1264

2024.03.01

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

305

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

17

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
光速学会docker容器
光速学会docker容器

共33课时 | 1.9万人学习

go语言基础与基本函数
go语言基础与基本函数

共17课时 | 3.1万人学习

Css3入门视频教程
Css3入门视频教程

共21课时 | 3.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号