首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

聖光之護

发布时间：2025-02-17 13:26:17

1323人浏览过

来源于php中文网

原创

加州大学伯克利分校吴梓阳博士及其团队提出了一种新型transformer架构——token statistics transformer (tost)，其核心是线性时间复杂度的注意力机制。这项研究成果已发表在iclr 2025，并被选为spotlight论文。马毅教授将在今年四月iclr大会上进行主题报告。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ToST巧妙地解决了传统Transformer架构中自注意力机制计算复杂度高的问题。传统自注意力机制的计算复杂度随输入token数量呈二次方增长，而ToST通过对序列特征的统计建模，将时间复杂度降低至线性。这使得ToST能够高效处理更长序列和更大模型。

论文标题：Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction
论文地址：https://www.php.cn/link/95f8a41d276ddf36bcdc87d53627da29
项目主页：https://www.php.cn/link/c7f746b7939ba6db31093d4438d9207b
开源地址：https://www.php.cn/link/ef13ab03d0eb503ae378006c95daa368

核心创新：Token Statistics Self-Attention (TSSA)

ToST的核心是TSSA，它通过避免两两相似性计算，仅依赖于token特征的统计量，从而实现线性复杂度。该方法基于变分编码率缩减（Variational Rate Reduction, VRR）框架，并通过实验验证了其在不同任务上的有效性。

方法概述: ToST通过提取统计特征，利用VRR框架压缩特征，最终实现线性时间复杂度。其架构基于先前CRATE工作的扩展，通过最大编码率缩减目标(MCR²)的变分形式推导得出。

BlackBox AI

AI编程助手，智能对话问答助手

下载

实验结果与性能分析: ToST在多个领域（NLP、CV）的任务中都取得了优异的成绩，同时显著降低了计算资源消耗。实验结果表明，ToST在计算时间和内存使用上均实现了线性扩展，且性能与传统Transformer架构相当甚至更好。

未来影响: ToST的线性时间复杂度注意力机制，为大模型的高效化、Transformer的普适化应用、多模态融合以及跨学科应用提供了新的可能性，具有重要的学术意义和应用价值。

clawdbot国内能用吗 clawdbot使用方法教程

clawdbot ai配置要求 Clawdbot ai全套国内部署教程

clawdbot如何部署 clawdbot安装教程

clawdbot网站官网入口 clawdbot在线网页版使用

DeepSpeed-MII— 微软DeepSpeed开源的模型推理库

相关标签:

git red 2025 架构 Token github transformer nlp https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：韩国数据保护机构暂停DeepSeek的新下载下一篇：机构：下半年NAND Flash市场供需改善，价格有望回升

作者最新文章

TensorRT LLM— NVIDIA开源的大模型推理优化框架

2026-01-27 16:20

TikTok私信收不到消息如何解决

2026-01-27 16:23

如何正确设置 Android Button 的背景色与标题文字颜色

2026-01-27 16:37

SHA256加盐哈希在PHP与C#中保持一致的关键要点

2026-01-27 16:42

为了塞进第二颗摄像头 iPhone Air 2首发定制超薄Face ID

2026-01-27 16:42

淘宝联盟如何关闭个性化广告

2026-01-27 17:03

如何在 Go 中将日志输出到标准错误流（stderr）

2026-01-27 17:16

里昂"见死不救"？《生化危机9》演示细节引粉丝争议

2026-01-27 17:20

标题：Android ListView 初始化错误导致应用崩溃的解决方案

2026-01-27 17:20

如何通过用户脚本或浏览器扩展实现图片上传到 Twitter/Reddit

2026-01-27 17:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6169

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

818

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1066

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1355

2024.03.01

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

932

2026.01.21

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2083

2024.08.16

Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用，包括对称加密与非对称加密（AES、RSA）、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范（如SQL注入、XSS、CSRF）及其防护措施。通过实战案例，帮助学习者掌握如何使用 Go 语言保障网络通信的安全性，保护用户数据与隐私。

2026.01.29