0

0

NLP中的注意力机制在自然语言处理中的应用

王林

王林

发布时间:2024-01-23 16:12:05

|

974人浏览过

|

来源于网易伏羲

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

自然语言处理(nlp)中的注意力机制

注意力的概念

注意力的概念在神经机器翻译的seq2seq模型中广为人知。编码器传递到解码器的信息量有限,限制了模型的性能。然而,注意力的引入可以克服这个瓶颈,使模型能够更好地处理长句子和复杂语义。

简单来说,模型在解码阶段会利用编码器的所有隐藏状态,并将最终隐藏状态作为初始隐藏状态馈送到解码器。这样做的好处是,模型能够在解码过程中利用更多的信息,并且能够“注意”输入序列中最相关的部分,从而在生成输出序列的不同部分时做出更准确的预测。

注意力的一般框架思路

虽然注意力机制在不同的体系结构和实现细节上有所不同,但它们也有一些共同点。例如,考虑一个场景,我们想要使用带有某种体系结构的神经网络进行预测。在这种情况下,我们会得到一个包含一些编码信息的向量。我们可以利用这个向量进行预测,比如将其输入到全连接层,然后再经过softmax层等处理。虽然具体的处理步骤可能会有所不同,但这个基本的思路在不同的体系结构中是相似的。

然而,事实证明它的预测结果并不令人满意。原因可能有很多,以下是一种可能的思路:

1.使用的这个向量不包含对实现良好预测有用的所有信息。

通常,做出良好预测所需的信息会分布在许多向量中,比如在NLP任务的情况下,有一个被标记编码的向量序列。尽管已经考虑了所有分布式信息,但随着它在神经网络中更深入地流动,一些信息将不可避免地丢失。

2.有用的不仅是这些向量中包含的各个信息片段,还有它们与当前向量之间的关系。

当前向量可能需要与其他向量进行交互和通信,并帮助确定要传递哪些信息。因此,需要一种更加聪明的方法来组合拥有的所有潜在有用的向量,并让模型能够学习要注意什么,以便做出更好的预测。

考虑到这两点后,假设现在有这么一个向量以及其他符合条件的向量,这些向量对于做出预测很重要,而处理这些信息的方法,即是注意力的一般框架。

迅易年度企业管理系统开源完整版
迅易年度企业管理系统开源完整版

系统功能强大、操作便捷并具有高度延续开发的内容与知识管理系统,并可集合系统强大的新闻、产品、下载、人才、留言、搜索引擎优化、等功能模块,为企业部门提供一个简单、易用、开放、可扩展的企业信息门户平台或电子商务运行平台。开发人员为脆弱页面专门设计了防刷新系统,自动阻止恶意访问和攻击;安全检查应用于每一处代码中,每个提交到系统查询语句中的变量都经过过滤,可自动屏蔽恶意攻击代码,从而全面防止SQL注入攻击

下载

在这个框架中接受查询并让它与键一一交互:

1、查询和每个键之间的特定交互,它可以是内积或加法或连接的组合以及馈送到小型神经网络等。使用从反向传播训练的具有相同参数的相同操作来处理查询每个不同的键。此外,要求这些操作后的最终输出是单个值。这些输出值被称为能量。在查询和所有关键向量上重复这个过程后,将得到一系列的能量。2、使用softmax层对所有能量进行归一化。3、对值向量进行加权求和,权重为归一化能量。这会产生一个上下文向量,其维度与一个值向量相同,其中包含以智能方式组合的所有元素的信息。4、可以一起使用上下文向量和查询向量来进行预测,例如,将它们连接起来,根据需要提供给神经网络,然后是softmax层。

以上即为注意力的一般框架的流程,下面就来看看这个框架是如何应用到不同任务中的。

情绪分析任务

情感分析类型的任务是一种分类任务,输入是一段文本,输出是对应于其中一种可能情感的标签。在将文本输入神经网络之前,需要对其进行清理、格式化、标记化并转换为基于词汇表的一系列索引。虽然这不是seq2seq而是seq2one,但注意机制仍然适用并有助于提高性能。

普通的单向或双向基于LSTM的网络可用于执行此任务。在这种情况下,只有最后一层的最终隐藏状态(单向)或两个最终隐藏状态(双向,一个来自前向,一个来自后向)用于通过传递给分类头进行预测,例如全连接层和softmax。仅由最终隐藏状态携带的有限信息为模型的性能设置了瓶颈。

日期翻译任务

日期翻译是字符级seq2seq任务的一个例子。此任务的目标是将人类可读的日期作为输入,例如“2022年12月27日”,并输出表示与输入相同日期的机器可读日期,例如“2022-12-27”。

基于注意力的模型在解码器中的LSTM单元之前有一个注意力块。在每个循环步骤中,注意块的输出上下文向量和最后一步的输出被连接起来,然后馈送到LSTM单元。注意力的另一种实现是在LSTM单元和输出上下文向量之后将注意力块与当前步骤的输出向量连接起来,然后再馈送到全连接层以预测下一个标记。这里的注意力块遵循通用框架,键和值向量是同一组向量,即编码器最后一层的隐藏状态,查询和每个键之间的交互是一个小型神经网络。

在解码阶段,单向LSTM一次预测一个标记,因此每个步骤的输入有两种选择:从上一步输出的当前步骤预测的标记或基本事实。这里可以定义一个超参数,以控制训练期间使用的输入标记中有多少百分比是基本事实,并可以对其进行实验以优化模型性能。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

330

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

235

2023.10.07

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

27

2026.01.27

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

19

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

16

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

567

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

209

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

350

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.2万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号