DeepSeek R1-Zero与R1的结果与分析

爱谁谁

发布时间：2025-04-22 16:56:15

392人浏览过

来源于php中文网

原创

deepseek r1-zero与r1的结果与分析

摘要 | R1-Zero is more important than R1（R1-Zero 比 R1 更重要）

上周，DeepSeek 发布了他们的新 R1-Zero 和 R1「推理」系统，该系统在 ARC-AGI-1 上的表现与 OpenAI 的 o1 系统相当。R1-Zero、R1 和 o1（低计算量）的得分都在 15%-20% 左右——与经过数年纯 LLM 扩大规模的 GPT-4o 的 5% 相比，这是一个巨大的进步。根据本周美国市场的反应，公众开始理解纯 LLM 扩大规模的局限性。然而，公众对于即将到来的推理需求仍然知之甚少。

2024 年 12 月，OpenAI 宣布了一个新的突破性 o3 系统，我们已经对其进行了验证。该系统在低计算模式下得分为 76%，在高计算模式下得分为 88%。o3 系统展示了计算机首次实际、普遍地适应全新未见问题的能力。

尽管这是一个巨大的技术新闻，但 o3 在 ARC-AGI-1 上的胜利几乎未被主流媒体报道。

这是 AI 领域和计算机科学的一个极其重要的时刻，这些系统值得研究。但由于 o1/o3 的封闭性，我们不得不依靠猜测。多亏了 ARC-AGI-1 和现在（几乎）开源的DeepSeek R1-Zero 和 R1，我们可以增加我们的理解。特别是，R1-Zero 比 R1 更重要。

R1-Zero 消除了人类瓶颈在我们的 o1 和 o3 分析中，我们推测了这些推理系统的工作原理。关键思想如下：

为问题领域生成思维链（CoT）。
使用人类专家（“监督微调”或 SFT）和自动化机器（“强化学习”或 RL）的组合来标记中间 CoT 步骤。
使用（2）来训练基础模型。
在测试时，从过程模型中迭代推理。

以下列出了用于迭代采样的技术以及 ARC-AGI-1 的得分：

系统	ARC-AGI-1	方法	平均 Token 数	平均成本
r1-zero	14%	无 SFT / 无搜索	11K	$0.11
r1	15.8%	SFT / 无搜索	6K	$0.06
o1（低）	20.5%	SFT / 无搜索	7K	$0.43
o1（中）	31%	SFT / 无搜索	13K	$0.79
o1（高）	35%	SFT / 无搜索	22K	$1.31
o3（低）	75.7%	SFT / 搜索 + 采样	335K	$20
o3（高）	87.5%	SFT / 搜索 + 采样	57M	$3.4K

注：显示的是 ARC-AGI-1 半私有得分。

随着 DeepSeek 发布新的研究成果，我们可以更好地支持我们的推测。关键的见解是，LLM 推理系统在适应新颖性（以及可靠性）方面的能力是沿着三个维度实现的：

在 CoT 过程模型训练中添加人类标签，即 SFT。
使用 CoT 搜索而不是线性推理（每步并行 CoT 推理）。
整个 CoT 采样（并行轨迹推理）。

项目（1）受到人类数据生成的限制，并限制了这些推理系统受益最多的领域。例如，MMLU 专业法律类别的得分远低于数学和逻辑类别的得分。

项目（2）和（3）受到效率的限制。o1 和 o3 在 ARC-AGI-1 上的基准测试准确率随着在测试时花费更多的推理计算量而呈对数增长，而不同的计算量分配方式则调整了曲线的 x 轴。

在我看来，DeepSeek 最有趣的事情是单独发布了 R1-Zero。R1-Zero 是一个不使用 SFT（项目 1）的模型。相反，它完全依赖于强化学习。

R1-Zero 和 R1 在 ARC-AGI-1 上的得分高度一致，分别为 14% 和 15%。DeepSeek 自己报告的基准测试得分也显示 R1-Zero 和 R1 之间存在强烈的一致性，例如在 2024 年数学 AIME 上的得分分别为 71% 和 76%（从基础 DeepSeek V3 的约 40% 上升）。

在论文中，R1-Zero 的作者表示，“DeepSeek-R1-Zero 面临的挑战包括可读性差和语言混合”，这一观点也得到了在线上的证实。然而，在我们的测试中，我们几乎没有发现任何证据表明 R1-Zero 在 ARC-AGI-1 上表现不连贯，这与该系统进行强化学习的数学和编码领域相似。

综合这些发现，可以得出以下结论：

飞书多维表格

表格形态的AI工作流搭建工具，支持批量化的AI创作与分析任务，接入DeepSeek R1满血版

下载

在具有强大验证的领域中，SFT（例如人类专家标记）对于准确且清晰的 CoT 推理并非必要。
R1-Zero 的训练过程能够通过强化学习优化在 Token 空间中创建自己的内部领域特定语言（“DSL”）。
SFT 对于增加 CoT 推理领域的通用性是必要的。

这在直觉上是有意义的，因为语言本身实际上是一种推理 DSL。相同的“词汇”可以在一个领域中学习，并在另一个领域中应用，就像一个程序一样。纯粹的强化学习方法目前还无法发现一个广泛的共享词汇表，我预计这将成为未来研究的重点。

最终，R1-Zero 展示了一种潜在的无人类瓶颈的扩展模式的原型——甚至在训练数据获取本身也是如此。

DeepSeek 几乎肯定已经将目标对准了 OpenAI 的 o3 系统。重要的是要观察 SFT 是否会成为添加 CoT 搜索和采样的必要条件，或者是否可以存在一个假设的“R2-Zero”，沿着相同的对数准确率与推理规模曲线发展。根据 R1-Zero 的结果，我相信在假设的扩展版本中，SFT 不会是超越 ARC-AGI-1 的必要条件。

为可靠性付费从经济角度来看，AI 正在发生两个重大转变：

现在你可以花费更多钱来获得更高的准确率和可靠性。
训练成本正在转向推理成本。

这两个转变都将推动对推理的巨大需求，而且都不会减少对计算的需求。事实上，它们会增加对计算的需求。

AI 推理系统所承诺的回报远不止在基准测试上获得更高的准确率。阻碍更多 AI 自动化使用（例如推理需求）的首要问题是可靠性。我与 Zapier 的数百名客户交谈过，他们试图在业务中部署 AI 代理，反馈意见非常一致：“我还不信任它们，因为它们不可靠地工作。”

我之前曾论证过，朝着 ARC-AGI（人工通用智能）的进步将带来更高的可靠性。LLM（大型语言模型）代理面临的挑战是，它们需要强大的本地领域引导才能可靠地工作。更强的泛化能力需要能够适应未见过的情况。我们现在开始看到证据表明这种观点是正确的。因此，许多公司现在开始推出代理（例如 Anthropic、OpenAI、Apple 等）也就不足为奇了。

由于可靠性需求，代理将推动近期对推理的巨大需求。更广泛地说，开发者可以选择投入更多的计算资源来增加用户对系统的信任。更高的可靠性并不意味着 100% 的准确率——但你会期望系统更一致地表现出不准确。这是可以接受的，因为用户和开发者现在可以通过提示更自信地引导系统行为，即使在准确率较低的情况下。

以前对计算机来说不可能解决的问题，现在有了“价格标签”。随着效率的提升，这些价格将会下降。

推理即训练另一个重大转变发生在 LLM 系统预训练数据的来源上。以前，大多数数据要么是购买的，要么是从网络抓取的，要么是从现有的 LLM 中合成生成的（例如通过蒸馏或增强）。

这些推理系统提供了一种新的选择，即生成“真实”数据，而不是“合成”数据。AI 行业用“合成”一词来标识低质量的数据，这些数据通常通过 LLM 循环使用，以增加训练数据的总量，但收益递减。

但现在有了推理系统和验证器，我们可以创建全新的合法数据用于训练。这可以在离线状态下完成，开发者为此付费创建数据，也可以在推理时完成，最终用户为此付费！

这是一个令人着迷的经济转变，它表明，对于拥有最多付费客户的 AI 系统开发者来说，可能会出现一种权力集中失控的局面。这些客户正在为创建新的高质量数据买单……而这些数据又会改善模型……使模型变得更好，更受用户青睐……你明白我的意思了。

如果我们能够突破人类专家 CoT（思维链）的限制，并创建一个极其高效的系统，通过搜索/合成和验证来创建新数据，那么我们应该会看到大量的计算资源涌入这些推理系统，因为它们通过投入资金和原始数据就能变得更好。最终，这种类型的 AI 训练将完全取代基于人类生成数据的预训练。

结论随着对推理需求的增加变得清晰，我们将继续看到市场的调整。AI 系统的效率只会推动更多的使用，这不仅是因为杰文斯悖论（效率提高导致使用增加），还因为随着效率的提高，新的训练模式得以解锁。

由于 R1 是开放且可复现的，更多的人和团队将把 CoT（思维链）和搜索推向极限。这将更快地告诉我们真正的前沿在哪里，并将推动一波创新浪潮，增加快速实现 AGI 的可能性。

R1 的开放对世界来说是一件好事。DeepSeek 极大地推动了科学的前沿发展。

零代码量！3分钟用Chatbox搭建DeepSeek R1满血版私人高速通道

大模型解决机器学习问题，实测，DeepSeek-R1 排名第9

《deepseek》部署到本地教程

一文了解 DeepSeek R1 模型：AI 推理领域的革命性突破

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6605

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

842

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2103

2024.03.01

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

2025.12.13

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

216

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板