0

0

只用2700万参数,这个推理模型超越了DeepSeek和Claude

雪夜

雪夜

发布时间:2025-08-03 09:14:01

|

980人浏览过

|

来源于php中文网

原创

机器之心报道

编辑:泽南、陈陈

大模型架构正面临变革的临界点?

在应对复杂推理任务时,当前主流的大语言模型(LLM)普遍依赖思维链(CoT)技术。然而,这类方法普遍存在任务分解困难、训练数据需求庞大以及推理延迟高等瓶颈。

近期,Sapient Intelligence 的研究团队受人脑的分层结构与多时间尺度信息处理机制启发,提出了一种全新的循环神经网络架构——分层推理模型(HRM),该模型在确保训练稳定与高效的同时,实现了极高的计算深度。

HRM 的核心在于两个相互协作的循环模块,它们在单次前向传播中即可完成顺序推理任务,且无需对中间推理步骤进行显式标注或监督。其中,高级模块负责缓慢、抽象的长期规划,而低级模块则专注于快速、细粒度的局部计算。令人惊讶的是,这一模型仅包含 2700 万参数,并使用约 1000 个样本训练,就在多项高难度推理任务中展现出卓越表现。

更关键的是,HRM 无需预训练,也不依赖 CoT 数据,却在解决极端难度的数独谜题和大型迷宫最优路径搜索等任务上接近完美。此外,在抽象与推理语料库(ARC)这一衡量通用智能的关键基准上,HRM 的性能甚至超越了拥有更长上下文窗口的大型模型。

由此可见,HRM 有望成为推动通用计算范式变革的重要一步。

只用2700万参数,这个推理模型超越了DeepSeek和Claudepaper.png论文:Hierarchical Reasoning Model 论文链接:https://www.php.cn/link/f20b96673d628cfa435e92faa3b94666 —— HRM 的设计灵感源于大脑的层级化处理与时间分离机制,包含两个在不同时间尺度上协同工作的循环网络。右图 —— 尽管仅使用约 1000 个训练样本,HRM(2700 万参数)在 ARC-AGI、Sudoku-Extreme 和 Maze-Hard 等极具挑战性的符号推理任务上显著优于最先进的 CoT 模型,后者几乎完全失效。HRM 从随机初始化开始训练,不依赖思维链提示,直接根据输入完成推理。

只用2700万参数,这个推理模型超越了DeepSeek和Claude1.png分层推理模型

深度在复杂推理中的关键作用如下图所示。

左图:在需要大量树搜索与回溯的 Sudoku-Extreme Full 任务中,增加 Transformer 的宽度并未提升性能,而增加深度则至关重要。右图:传统架构已达到性能饱和,无法有效利用更深的网络。HRM 成功突破这一限制,充分利用其深度结构,实现了接近完美的准确率。

只用2700万参数,这个推理模型超越了DeepSeek和Claude2.pngHRM 的核心设计灵感来源于大脑:层级结构 + 多时间尺度处理。具体包括:

分层处理机制:大脑通过皮层区域的层级结构处理信息。高级区域(如前额叶)在较长时间尺度上整合信息并形成抽象表征,而低级区域(如感觉皮层)则处理即时、具体的感知输入。

时间尺度分离:不同层级的神经活动具有不同的时间动态,表现为特定的神经振荡模式。这种机制使高级脑区能够稳定引导低级脑区的快速运算。

循环连接特性:大脑中存在大量反馈连接,构成循环神经网络。这种结构通过迭代优化不断提升表征精度和上下文适应能力,尽管需要更多处理时间,但有效缓解了反向传播时间算法(BPTT)中的深层信用分配难题。

HRM 模型由四个可学习组件构成:输入网络 f_I (・; θ_I ),低级循环模块 f_L (・; θ_L),高级循环模块 f_H (・; θ_H),以及输出网络 f_O (・; θ_O)。

HRM 将输入向量 x 映射为输出预测 y´。首先,输入 x 被投影为一个初始表示

码上飞
码上飞

码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。

下载

只用2700万参数,这个推理模型超越了DeepSeek和Claudeimage.png:

只用2700万参数,这个推理模型超越了DeepSeek和Claudeimage.png每个周期结束时,H 模块的状态为:

只用2700万参数,这个推理模型超越了DeepSeek和Claudeimage.png最终,在经历 N 个完整周期后,从 H 模块的隐藏状态中提取预测结果

只用2700万参数,这个推理模型超越了DeepSeek和Claudeimage.png。

只用2700万参数,这个推理模型超越了DeepSeek和Claudeimage.pngHRM 展现出层级收敛行为:H 模块状态趋于稳定收敛,而 L 模块在每个周期内反复收敛后被 H 模块重置,导致残差出现周期性峰值。相比之下,普通循环网络快速收敛,残差迅速趋零;而深度前馈网络则因梯度消失问题,在输入层和输出层保留显著残差。

只用2700万参数,这个推理模型超越了DeepSeek和Claude3.pngHRM 引入了两项关键技术:

一是近似梯度机制。传统循环模型依赖 BPTT 计算梯度,需存储所有时间步的隐藏状态,内存消耗随时间步 T 线性增长(O(T))。

HRM 提出一种一步梯度近似方法:仅使用各模块最终状态的梯度,其余状态视为常量。该方法仅需 O(1) 内存,无需展开时间序列,且可轻松集成于 PyTorch 等自动微分框架中,如图 4 所示。

只用2700万参数,这个推理模型超越了DeepSeek和Claudeimage.png

二是深度监督机制。本文将深度监督融入 HRM 的训练过程。

对于每个样本 (x, y),模型执行多段前向传递,设 M 为总段数。令

只用2700万参数,这个推理模型超越了DeepSeek和Claudeimage.png表示第 m 段结束时的隐藏状态(含高级与低级分量)。图 4 展示了深度监督训练的伪代码流程。

自适应计算时间(ACT)。大脑可在直觉式“快思考”(System 1)与深思熟虑的“慢思考”(System 2)之间灵活切换。

受此启发,研究将自适应停止策略引入 HRM,实现动态计算资源分配。如图 5 所示,ACT 能根据任务复杂度自动调整推理步数,在大幅节省计算开销的同时,几乎不影响性能。

只用2700万参数,这个推理模型超越了DeepSeek和Claudeimage.png

推理时间扩展。理想的神经模型应能在推理阶段动态增加计算资源以提升性能。如图 5-(c) 所示,

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1501

2023.10.24

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

407

2023.08.14

pytorch是干嘛的
pytorch是干嘛的

pytorch是一个基于python的深度学习框架,提供以下主要功能:动态图计算,提供灵活性。强大的张量操作,实现高效处理。自动微分,简化梯度计算。预构建的神经网络模块,简化模型构建。各种优化器,用于性能优化。想了解更多pytorch的相关内容,可以阅读本专题下面的文章。

433

2024.05.29

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习
Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架,是一种通常用于图像识别和语言处理等应用程序的机器学习。 使用Python 编写,因此对于大多数机器学习开发者而言,学习和使用起来相对简单。 PyTorch 的独特之处在于,它完全支持GPU,并且使用反向模式自动微分技术,因此可以动态修改计算图形。

24

2025.12.22

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2081

2024.08.16

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

167

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

35

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

74

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
golang和swoole核心底层分析
golang和swoole核心底层分析

共3课时 | 0.1万人学习

Golang深入理解GPM模型
Golang深入理解GPM模型

共18课时 | 1.6万人学习

Golang进阶实战编程
Golang进阶实战编程

共34课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号