0

0

DeepSeek R1-Zero与R1的结果与分析

爱谁谁

爱谁谁

发布时间:2025-04-22 16:56:15

|

392人浏览过

|

来源于php中文网

原创

deepseek r1-zero与r1的结果与分析

摘要 | R1-Zero is more important than R1(R1-Zero 比 R1 更重要)

上周,DeepSeek 发布了他们的新 R1-Zero 和 R1「推理」系统,该系统在 ARC-AGI-1 上的表现与 OpenAI 的 o1 系统相当。R1-Zero、R1 和 o1(低计算量)的得分都在 15%-20% 左右——与经过数年纯 LLM 扩大规模的 GPT-4o 的 5% 相比,这是一个巨大的进步。根据本周美国市场的反应,公众开始理解纯 LLM 扩大规模的局限性。然而,公众对于即将到来的推理需求仍然知之甚少。

2024 年 12 月,OpenAI 宣布了一个新的突破性 o3 系统,我们已经对其进行了验证。该系统在低计算模式下得分为 76%,在高计算模式下得分为 88%。o3 系统展示了计算机首次实际、普遍地适应全新未见问题的能力。

尽管这是一个巨大的技术新闻,但 o3 在 ARC-AGI-1 上的胜利几乎未被主流媒体报道。

这是 AI 领域和计算机科学的一个极其重要的时刻,这些系统值得研究。但由于 o1/o3 的封闭性,我们不得不依靠猜测。多亏了 ARC-AGI-1 和现在(几乎)开源的DeepSeek R1-Zero 和 R1,我们可以增加我们的理解。特别是,R1-Zero 比 R1 更重要。

R1-Zero 消除了人类瓶颈在我们的 o1 和 o3 分析中,我们推测了这些推理系统的工作原理。关键思想如下:

  1. 为问题领域生成思维链(CoT)。

  2. 使用人类专家(“监督微调”或 SFT)和自动化机器(“强化学习”或 RL)的组合来标记中间 CoT 步骤。

  3. 使用(2)来训练基础模型。

  4. 在测试时,从过程模型中迭代推理。

以下列出了用于迭代采样的技术以及 ARC-AGI-1 的得分:

系统 ARC-AGI-1 方法 平均 Token 数 平均成本
r1-zero 14% 无 SFT / 无搜索 11K $0.11
r1 15.8% SFT / 无搜索 6K $0.06
o1(低) 20.5% SFT / 无搜索 7K $0.43
o1(中) 31% SFT / 无搜索 13K $0.79
o1(高) 35% SFT / 无搜索 22K $1.31
o3(低) 75.7% SFT / 搜索 + 采样 335K $20
o3(高) 87.5% SFT / 搜索 + 采样 57M $3.4K

注:显示的是 ARC-AGI-1 半私有得分。

随着 DeepSeek 发布新的研究成果,我们可以更好地支持我们的推测。关键的见解是,LLM 推理系统在适应新颖性(以及可靠性)方面的能力是沿着三个维度实现的:

  1. 在 CoT 过程模型训练中添加人类标签,即 SFT。

  2. 使用 CoT 搜索而不是线性推理(每步并行 CoT 推理)。

  3. 整个 CoT 采样(并行轨迹推理)。

项目(1)受到人类数据生成的限制,并限制了这些推理系统受益最多的领域。例如,MMLU 专业法律类别的得分远低于数学和逻辑类别的得分。

项目(2)和(3)受到效率的限制。o1 和 o3 在 ARC-AGI-1 上的基准测试准确率随着在测试时花费更多的推理计算量而呈对数增长,而不同的计算量分配方式则调整了曲线的 x 轴。

在我看来,DeepSeek 最有趣的事情是单独发布了 R1-Zero。R1-Zero 是一个不使用 SFT(项目 1)的模型。相反,它完全依赖于强化学习。

R1-Zero 和 R1 在 ARC-AGI-1 上的得分高度一致,分别为 14% 和 15%。DeepSeek 自己报告的基准测试得分也显示 R1-Zero 和 R1 之间存在强烈的一致性,例如在 2024 年数学 AIME 上的得分分别为 71% 和 76%(从基础 DeepSeek V3 的约 40% 上升)。

在论文中,R1-Zero 的作者表示,“DeepSeek-R1-Zero 面临的挑战包括可读性差和语言混合”,这一观点也得到了在线上的证实。然而,在我们的测试中,我们几乎没有发现任何证据表明 R1-Zero 在 ARC-AGI-1 上表现不连贯,这与该系统进行强化学习的数学和编码领域相似。

综合这些发现,可以得出以下结论:

  1. 在具有强大验证的领域中,SFT(例如人类专家标记)对于准确且清晰的 CoT 推理并非必要。

    飞书多维表格
    飞书多维表格

    表格形态的AI工作流搭建工具,支持批量化的AI创作与分析任务,接入DeepSeek R1满血版

    下载
  2. R1-Zero 的训练过程能够通过强化学习优化在 Token 空间中创建自己的内部领域特定语言(“DSL”)。

  3. SFT 对于增加 CoT 推理领域的通用性是必要的。

这在直觉上是有意义的,因为语言本身实际上是一种推理 DSL。相同的“词汇”可以在一个领域中学习,并在另一个领域中应用,就像一个程序一样。纯粹的强化学习方法目前还无法发现一个广泛的共享词汇表,我预计这将成为未来研究的重点。

最终,R1-Zero 展示了一种潜在的无人类瓶颈的扩展模式的原型——甚至在训练数据获取本身也是如此。

DeepSeek 几乎肯定已经将目标对准了 OpenAI 的 o3 系统。重要的是要观察 SFT 是否会成为添加 CoT 搜索和采样的必要条件,或者是否可以存在一个假设的“R2-Zero”,沿着相同的对数准确率与推理规模曲线发展。根据 R1-Zero 的结果,我相信在假设的扩展版本中,SFT 不会是超越 ARC-AGI-1 的必要条件。

为可靠性付费从经济角度来看,AI 正在发生两个重大转变:

  1. 现在你可以花费更多钱来获得更高的准确率和可靠性。

  2. 训练成本正在转向推理成本。

这两个转变都将推动对推理的巨大需求,而且都不会减少对计算的需求。事实上,它们会增加对计算的需求。

AI 推理系统所承诺的回报远不止在基准测试上获得更高的准确率。阻碍更多 AI 自动化使用(例如推理需求)的首要问题是可靠性。我与 Zapier 的数百名客户交谈过,他们试图在业务中部署 AI 代理,反馈意见非常一致:“我还不信任它们,因为它们不可靠地工作。”

我之前曾论证过,朝着 ARC-AGI(人工通用智能)的进步将带来更高的可靠性。LLM(大型语言模型)代理面临的挑战是,它们需要强大的本地领域引导才能可靠地工作。更强的泛化能力需要能够适应未见过的情况。我们现在开始看到证据表明这种观点是正确的。因此,许多公司现在开始推出代理(例如 Anthropic、OpenAI、Apple 等)也就不足为奇了。

由于可靠性需求,代理将推动近期对推理的巨大需求。更广泛地说,开发者可以选择投入更多的计算资源来增加用户对系统的信任。更高的可靠性并不意味着 100% 的准确率——但你会期望系统更一致地表现出不准确。这是可以接受的,因为用户和开发者现在可以通过提示更自信地引导系统行为,即使在准确率较低的情况下。

以前对计算机来说不可能解决的问题,现在有了“价格标签”。随着效率的提升,这些价格将会下降。

推理即训练另一个重大转变发生在 LLM 系统预训练数据的来源上。以前,大多数数据要么是购买的,要么是从网络抓取的,要么是从现有的 LLM 中合成生成的(例如通过蒸馏或增强)。

这些推理系统提供了一种新的选择,即生成“真实”数据,而不是“合成”数据。AI 行业用“合成”一词来标识低质量的数据,这些数据通常通过 LLM 循环使用,以增加训练数据的总量,但收益递减。

但现在有了推理系统和验证器,我们可以创建全新的合法数据用于训练。这可以在离线状态下完成,开发者为此付费创建数据,也可以在推理时完成,最终用户为此付费!

这是一个令人着迷的经济转变,它表明,对于拥有最多付费客户的 AI 系统开发者来说,可能会出现一种权力集中失控的局面。这些客户正在为创建新的高质量数据买单……而这些数据又会改善模型……使模型变得更好,更受用户青睐……你明白我的意思了。

如果我们能够突破人类专家 CoT(思维链)的限制,并创建一个极其高效的系统,通过搜索/合成和验证来创建新数据,那么我们应该会看到大量的计算资源涌入这些推理系统,因为它们通过投入资金和原始数据就能变得更好。最终,这种类型的 AI 训练将完全取代基于人类生成数据的预训练。

结论随着对推理需求的增加变得清晰,我们将继续看到市场的调整。AI 系统的效率只会推动更多的使用,这不仅是因为杰文斯悖论(效率提高导致使用增加),还因为随着效率的提高,新的训练模式得以解锁。

由于 R1 是开放且可复现的,更多的人和团队将把 CoT(思维链)和搜索推向极限。这将更快地告诉我们真正的前沿在哪里,并将推动一波创新浪潮,增加快速实现 AGI 的可能性。

R1 的开放对世界来说是一件好事。DeepSeek 极大地推动了科学的前沿发展。

相关文章

AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6099

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

810

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1063

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1265

2024.03.01

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

31

2025.12.13

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

9

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

59

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

82

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

38

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号