TTT-Discover— 斯坦福、英伟达推出的测试时强化学习方法

心靈之曲

发布时间：2026-01-31 12:11:22

102人浏览过

来源于php中文网

原创

TTT-Discover 是什么

ttt-discover（test-time training to discover）是由斯坦福大学、英伟达等顶尖研究机构联合提出的一种面向科学发现的新型人工智能方法。该方法在模型推理（测试）阶段引入强化学习机制，不对参数进行全局冻结，而是仅对部分可训练权重实施轻量级优化与搜索。其核心在于以熵驱动的目标函数最大化单次最优奖励，并融合受puct算法启发的状态重用策略，使模型能够在求解过程中边试边学、实时进化。ttt-discover 基于开源大模型 gpt-oss-120b 构建，在数学证明、gpu内核设计、算法竞赛求解及生物信息分析等多个高难度科学领域均刷新了当前最佳性能（sota），且单任务平均成本控制在数百美元量级。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

TTT-Discover— 斯坦福、英伟达推出的测试时强化学习方法

uBrand

一站式AI品牌创建平台，在线品牌设计，AI品牌策划，智能品牌营销；uBrand帮助创业者轻松打造个性品牌！

下载

TTT-Discover 的核心能力

测试阶段自适应进化：在实际问题求解过程中动态调整模型参数，将失败尝试转化为有效经验，实现面向特定目标的定向能力跃迁。
开放科学问题攻坚：专为数学、工程系统、算法设计与生命科学等领域的未解难题定制，致力于发现超越现有理论框架的突破性解法。
智能搜索与状态复用：借助熵导向奖励函数聚焦高价值动作空间，结合PUCT风格评分机制从历史解池中优选初始状态，兼顾探索广度与利用深度。
高性价比科研辅助：无需私有超大规模模型，依托公开可用的基础模型即可达成业界领先效果，显著降低前沿AI科研门槛与算力开销。

TTT-Discover 的技术机制

熵正则化奖励最大化：优化目标定义为 $ J_\beta(\theta) = \mathbb{E}\left[\log \mathbb{E}\left[e^{\beta R}\right]\right] $。当温度系数 $\beta \to \infty$ 时，目标退化为严格追求最大奖励而非期望奖励，从而锁定全局最优路径；引入状态依赖的自适应 $\beta(s)$ 控制KL散度，保障训练过程鲁棒收敛。
PUCT驱动的历史状态调度：构建已探索解的缓存池，采用评分公式 $ Q(s) + c \cdot P(s) \cdot \frac{1 + \sqrt{n(s)}}{1 + T} $ 进行状态选择。其中 $ Q(s) $ 取子节点中的最高奖励（非均值），$ P(s) $ 依据历史表现排序生成先验分布，确保既挖掘高潜力候选又保留结构多样性。

TTT-Discover 的官方资源

arXiv论文原文：https://www.php.cn/link/c458bd80967c802be694099db881c14b

TTT-Discover 的典型应用方向

数学前沿探索：针对Erdős最小重叠猜想、自相关不等式等经典开放问题，精准提升边界估计精度，并生成具备构造意义的新证明范式。
高性能计算内核生成：自动化设计关键AI算子，例如AlphaFold中的TriMul张量乘法模块、DeepSeek架构下的MLA解码内核，实测性能超越资深工程师手工调优结果。
编程竞赛智能求解：成功攻克AtCoder等平台中多项NP-hard级别挑战，涵盖复杂几何建模、多约束生产排程等现实难度极高的算法任务。
单细胞组学分析增强：优化scRNA-seq数据去噪流程，在低质量样本中更准确恢复真实基因表达模式，显著提升下游差异表达与细胞类型注释可靠性。