0

0

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

聖光之護

聖光之護

发布时间:2025-02-15 20:36:32

|

739人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

一.引言

推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。

主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。当处理复杂任务,如高级数学和编程问题时,模型需要更细粒度的搜索、更精确的推理步骤和更长的思维链,导致状态空间和策略空间的规模急剧扩大,难度大幅上升。

Inference scaling 策略,不依赖训练,通过延长推理时间进一步提高模型的 Reasoning 能力。常见方法,如 Best-of-N 或者蒙特卡洛树搜索(MCTS),允许 LLM 同时探索多条推理路径,扩大搜索空间,朝着更有希望的方向前进。这些方法计算成本高,特别是步骤多或搜索空间大的时候。采样随机性使得确定最佳路径困难,且依赖手动设计的搜索策略和奖励函数,限制了泛化能力。

在此背景下,普林斯顿大学团队联合北京大学团队合作开发了名为 ReasonFlux 的多层次(Hierarchical)LLM 推理框架。

图片

  • 文章链接:https://arxiv.org/abs/2502.06772

  • 开源地址:https://github.com/Gen-Verse/ReasonFlux

(该论文作者特别声明:本工作没有蒸馏或用任何方式使用 DeepSeek R1。)

剪映
剪映

一款全能易用的桌面端剪辑软件

下载

基于层次化强化学习(Hierachical Reinforcement Learning)思想,ReasonFlux 提出了一种更高效且通用的大模型推理范式,它具有以下特点:

  • 思维模版:ReasonFlux 的核心在于结构化的思维模板,每个模版抽象了一个数学知识点和解题技巧。仅用 500 个通用的思维模板库,就可解决各类数学难题。

  • 层次化推理和强可解释性:ReasonFlux 利用层次化推理(Hierarchical Reasoning)将思维模板组合成思维轨迹(Thought Template Trajectory)、再实例化得到完整回答。模型的推理过程不再是 “黑盒”,而是清晰的展现了推理步骤和依据,这为 LLM 的可解释性研究提供了新的工具和视角,也为模型的调试和优化提供了便利。与 DeepSeek-R1 和 OpenAI-o1 等模型的推理方式不同,ReasonFlux 大大压缩并凝练了推理的搜索空间,提高了强化学习的泛化能力,提高了 inference scaling 的效率。 

  • 轻量级系统:ReasonFlux 仅 32B 参数,强化训练只用了 8 块 NVIDIA A100-PCIE-80GB GPU。它能通过自动扩展思维模板来提升推理能力,更高效灵活。

图片

ReasonFlux-32B 在多个数学推理基准测试中表现出色,仅仅用了 500 个基于不同数学知识点的思维模版,就展现了其强大的推理能力和跻身第一梯队的实力。

二.ReasonFlux:
三大关键技术构建大模型推理新框架

ReasonFlux 的性能提升得益于其三大核心技术:

  1. 结构化的思维模板抽取:ReasonFlux 利用大语言模型从以往的数学问题中提取了一个包含大约 500 个结构化思维模板的知识库。每个模板都包含标签、描述、适用范围、应用步骤等信息,这些信息经过组织和结构化处理,为 LLM 的推理提供了元知识参考。这些模板覆盖了多种数学问题类型和解题方法,如不等式求解、三角函数变换、极值定理等,是 ReasonFlux 进行推理的基础。
  2. 多层次强化学习(Hierarchical RL) — 选择最优的 Thought Template Trajectory:该算法通过 Hierarchical Reinforcement Learning 训练一个 High-level 的 navigator,使其能够对输入问题进行拆解,转而求解多个更简单的子问题,根据子问题类型从模板库中检索相关的思维模板,并规划出最优的 Thought Template Trajectory。它可以看作是解决问题的 “路线图”,它由一系列的模板组合而成。这种基于 Hierarchical RL 的优化算法通过奖励在相似问题上的泛化能力,提升了推理轨迹的鲁棒性和有效性,使得 ReasonFlux 能够举一反三,为各种数学问题生成有效的思维模板轨迹。
  3. 新型 Inference Scaling 系统:该系统实现了结构化模板库和 inference LLM 之间的多轮交互。“Navigator” 负责规划模板轨迹和检索模板,inference LLM 负责将模板实例化为具体的推理步骤,并通过分析中间结果来动态调整轨迹,实现高效的推理过程。这种交互机制使得 ReasonFlux 能够根据问题的具体情况灵活调整推理策略,从而提高推理的准确性和效率。

(a)推理示例对比:

接下来我们来分析 ReasonFlux 在解决实际问题上相较于 o1-mini 的对比。

我们来看和 o1-mini 的对比
图片
如上图可知,o1-mini 在面对这道难题时,尝试了多种策略,但均未能找到有效的突破口。它首先试图通过引入新变量和利用对称性来简化方程组,但收效甚微;接着又尝试假设变量相等来寻找特解,结果却得出了矛盾;随后,它试图用一个变量表示其他变量,并尝试平方去根号,但复杂的表达式使其望而却步;最后,它甚至想到了三角换元,但由于未能正确应用,最终只能无奈地放弃求解。

相比之下,ReasonFlux 的解题过程如下:

  1. 分析与规划:ReasonFlux 首先对题目进行分析,确定了解题的主要步骤:初步确定 k 值的范围、利用三角换元、化简方程组、求解 θ、计算目标值。这一步反映了 ReasonFlux 的问题分析和规划能力,为后续解题过程提供了基础。
  2. 模板化推理:ReasonFlux 随后依次应用了 “三角换元”、“化简方程组”、“求解 θ” 等模板,将复杂的方程组逐步简化,并最终求解出 θ 的值。每一步都依据模板的指导,旨在保证解题过程的准确性。
  3. 逐步推导:ReasonFlux 根据求得的角度值,计算出 (x, y, z) 的值,并最终计算出目标值图片,从而得到 (m=1, n=32, m+n=33)。整个过程逻辑清晰,步骤明确,展示了 ReasonFlux 的规划和推理能力。

(b) 新的 inference scaling law:
图片
如上图所示,随着问题复杂度的增加,ReasonFlux 正确解答问题时所需的模板数量和交互轮数也相应增加。这表明 ReasonFlux 能够根据问题的难度动态调整推理策略,体现了其优秀的自适应能力。并且可以观察到,交互轮数的增长趋势略高于模板数量,这意味着规划能力的提升对解决复杂问题至关重要。

三.主流推理范式对比:
ReasonFlux  vs Best-of-N & MCTS

目前,提升 LLM 推理性能的主流方法通常依赖于增加模型规模和计算资源。例如,增加模型参数量、采用 Best-of-N 或蒙特卡洛树搜索 (MCTS) 等方法来扩大搜索空间以寻找更优解。然而,这些方法往往计算成本较高,且模型的推理过程难以解释。

ReasonFlux 采用了一种不同的方法,通过构建结构化的思维模板库和设计新的层次化强化学习算法,实现了一种更高效和可解释的推理方式。

传统的 Inference Scaling 方法,如 Best-of-N 和 MCTS,主要通过扩大搜索空间来提高准确率。但随着问题复杂度的增加,搜索空间呈指数级增长,导致计算成本显著上升。

在 ReasonFlux 的推理过程中,Navigator 与 Inference LLM 之间存在多轮交互。Inference LLM 根据 Navigator 给出的模板轨迹执行推理步骤后,Navigator 会对执行结果进行评估图片。如公式图片所示,根据评估结果,Navigator 会动态调整模板轨迹图片,例如修改当前步骤的模板、添加或删除步骤等。这种迭代优化的机制使得 ReasonFlux 能够根据问题的具体情况灵活调整推理策略,从而提高推理的准确性和效率。

ReasonFlux 通过引入结构化的思维模板,将搜索空间从 “原始解空间” 缩小到 “模板空间”,从而降低了搜索的难度和成本。如果说传统的推理范式是 “大海捞针”,那么 ReasonFlux 则是 “按图索骥”。这些模板并非简单的规则堆砌,而是经过提炼和结构化处理的知识模板,它们将复杂的推理过程分解为一系列可复用的步骤,从而提升了推理的效率和准确率。
图片
如上图所示,随着问题难度的提升,Best-of-N 和 MCTS 的探索成本(例如采样轨迹数量和迭代次数)显著增加,而 ReasonFlux 的探索成本(交互轮数)则保持在较低水平且相对稳定。这说明 ReasonFlux 能够更高效地利用已有的知识模板来解决问题,而不需要像 Best-of-N 和 MCTS 那样进行大量的试错和探索。这得益于 ReasonFlux 的结构化模板库和模板轨迹规划机制,使其能够在更小的搜索空间内找到正确的推理路径。

四.训练及推理框架介绍

下图展示了 ReasonFlux 的训练框架,其核心在于利用结构化的思维模板库和基于思维模板轨迹奖励的层次化强化学习算法,训练出一个能够进行高效推理的大模型。整个训练过程可以分为两个主要阶段:结构化知识学习和思维模板轨迹优化。
图片
1. 结构化知识学习阶段:这个阶段的目标是让模型学习思维模板库中蕴含的结构化知识。这些结构化的 Thought template 格式如下图所示:
图片
然后,我们利用这些结构化模板数据 图片对一个基础 LLM 进行微调,得到模型图片。训练的目标是让模型能够根据模板的名称和标签,生成对应的描述和适用范围 。通过这个阶段的训练,模型学习到了模板库中蕴含的丰富知识,并具备了初步的模板理解和应用能力。

2. 模板轨迹优化阶段这个阶段的目标是训练模型生成有效的模板轨迹,即针对特定问题,选择合适的模板并进行排序,形成解决问题的 “路线图”。我们利用新颖的基于 Thought Template Trajectory 的 Hierarchical RL 算法来实现这一目标。在这个阶段,我们使用 图片模型针对输入问题 图片生成多个候选的 high-level 思维模板轨迹图片。每个轨迹由一系列步骤 图片组成,每个步骤都关联到一个特定的模板。为了评估轨迹的质量,我们构建了一组与输入问题 图片相似的问题集图片。然后,我们利用 inference LLM 图片根据模板轨迹对这些相似问题进行具体的解答,并计算平均准确率作为轨迹的奖励图片。基于这个奖励信号,我们构建了优化样本对图片,其中图片。然后,我们利用这些样本对,通过 DPO 对 图片进行进一步优化,得到最终的 navigator 模型图片,也就是我们的 ReasonFlux 模型。 

通过这两个阶段的训练,ReasonFlux 模型不仅学习到了结构化的模板知识,还学会了如何针对特定问题选择和组合模板,形成有效的推理路径。这种能力使得 ReasonFlux 能够高效地解决各种复杂的数学推理问题。

下图是 ReasonFlux 的推理框架。其核心在于 navigator、inference LLM 和结构化模板库之间的多轮交互。这种交互机制使得 ReasonFlux 能够根据问题的具体情况灵活调整推理策略,从而提高推理的准确性和效率。
图片
以下是 ReasonFlux 的推理流程:

1. 问题抽象:给定一个输入问题图片,ReasonFlux(即 navigator图片)首先对其进行分析,并提取出问题的核心数学概念和关系,形成一个抽象表示图片。这一步可以理解为对问题进行 “降维”,提取出问题的本质特征。
2. 轨迹规划:基于问题的抽象表示图片,ReasonFlux 规划出一个最优的模板轨迹图片。这个轨迹可以看作是解决问题的 “路线图”,它由一系列步骤组成,每个步骤都对应一个特定的模板。
3. 模板检索:根据轨迹中的每个步骤 图片关联的模板名称 图片和标签图片,ReasonFlux 从结构化模板库 图片中检索出相关的模板集合 图片
4. 模板实例化: Inference LLM 图片根据检索到的模板 图片和输入问题 图片的具体信息,将轨迹中的每个步骤 图片实例化为具体的推理步骤 图片。这个过程可以理解为将抽象的模板应用到具体的问题中。
5. 轨迹调整: ReasonFlux 会评估每个实例化步骤 图片的执行结果,并根据评估结果图片动态调整模板轨迹。例如,如果发现当前步骤的模板不适用,ReasonFlux 可能会选择另一个模板,或者添加新的步骤。这种迭代优化的机制使得 ReasonFlux 能够根据问题的具体情况灵活调整推理策略,从而提高推理的准确性和效率。

通过这种 navigator 引导、inference LLM 执行、模板库支持、动态调整轨迹的多轮交互机制,ReasonFlux 能够高效地解决各种复杂的数学推理问题。这种推理框架不仅提高了推理的准确性和效率,还增强了模型的可解释性,因为我们可以清晰地追踪模型的推理过程和依据。

五.数学推理数据集上的表现:
小模型媲美大模型,展现未来应用潜力

ReasonFlux 在 MATH、AIME 2024、AMC 2023、OlympiadBench 和 Gaokao En 2023 等多个具有挑战性的数学推理数据集上进行了测试,并取得了良好的结果。

ReasonFlux-32B 在这些数据集上的表现处于前列,与其他先进模型相比具有竞争力。如下表所示,在 MATH 数据集上,ReasonFlux-32B 的准确率为 91.2%;在 AIME 2024 数据集上,ReasonFlux-32B 的准确率为 56.7%。这些结果表明 ReasonFlux 框架具有有效性。更重要的是,它表明较小规模的模型通过优化推理框架,可以达到甚至在某些情况下超越较大模型的性能。

ReasonFlux 还可用于不同大小(1.5B, 7B 和 32B)的基础模型,并且都能获得巨幅的推理效果提升,足见其通用性和泛化性。
图片
ReasonFlux 的成功不仅限于数学推理领域,其背后的核心思想 —— 结构化思维模板和模板轨迹 —— 具有广泛的应用潜力。未来,ReasonFlux 有潜力被应用于更多领域,如代码生成,医疗诊断,具身智能等多个领域。

六.作者介绍

杨灵:北大在读博士,普林斯顿高级研究助理,研究领域为大语言模型和扩散模型。

余昭辰:新加坡国立大学在读硕士,北京大学 PKU-DAIR 实验室科研助理,研究领域为大语言模型和扩散模型。

崔斌教授:崔斌现为北京大学计算机学院博雅特聘教授、博士生导师,担任计算机学院副院长、数据科学与工程研究所所长。他的研究方向包括数据库系统、大数据管理与分析、机器学习 / 深度学习系统等。

王梦迪教授:王梦迪现任普林斯顿大学电子与计算机工程系终身教授,并创立并担任普林斯顿大学 “AI for Accelerated Invention” 中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

398

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

575

2023.08.10

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

1079

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

414

2023.08.14

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

360

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2083

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

349

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

256

2023.09.05

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

14

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Node.js 教程
Node.js 教程

共57课时 | 9.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号