DeepSeek R1&V3 原版论文摘要

絕刀狂花

发布时间：2025-04-22 14:10:01

1101人浏览过

来源于php中文网

原创

《deepseek-r1：通过强化学习激励法学硕士的推理能力》

论文原文：https://www.php.cn/link/65d1b8a382fe0421b1c1d5b932baf87a

论文提要

引言
- 背景：近年来，大型语言模型（LLMs）在快速迭代和进化，逐渐缩小了与通用人工智能（AGI）之间的差距。后训练（post-training）已经成为完整训练流程中的一个重要组成部分，能够提升模型在推理任务上的准确性、与社会价值观的对齐以及对用户偏好的适应性。
- 问题：尽管OpenAI的o1系列模型通过扩展链式推理（CoT）过程在多种推理任务中取得了显著改进，但如何有效实现测试时扩展仍然是一个开放性问题。
- 目标：论文的目标是通过纯强化学习（RL）提升语言模型的推理能力，探索LLMs在没有任何监督数据的情况下，通过自我进化发展推理能力的潜力。
方法
- 2.1 概述：论文展示了即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也可以显著提升推理能力。进一步引入少量冷启动数据可以进一步提升性能。
- 2.2 DeepSeek-R1-Zero：在基础模型上应用强化学习
  - 强化学习算法：采用GRPO（Group Relative Policy Optimization）算法，避免使用与策略模型大小相同的批评者模型，通过组分数估计基线。
  - 奖励建模：采用基于规则的奖励系统，包括准确性奖励和格式奖励。
  - 训练模板：设计了一个简单的模板，要求模型首先生成推理过程，然后提供最终答案。
  - 性能：DeepSeek-R1-Zero在AIME 2024基准测试中表现出色，pass@1分数从15.6%提升至71.0%，通过多数投票进一步提升至86.7%，与OpenAI-o1-0912相当。
- 2.3 DeepSeek-R1：带有冷启动的强化学习
  - 冷启动：通过收集数千个长CoT数据微调基础模型，作为RL的起点。
  - 推理导向的强化学习：在微调后的模型上应用与DeepSeek-R1-Zero相同的RL训练过程。
  - 拒绝采样和监督微调：在RL收敛后，通过拒绝采样生成新的SFT数据，并结合其他领域的数据进行微调。
  - 面向所有场景的强化学习：在最终阶段，对模型进行额外的RL训练，优化其在各种场景下的表现。
- 2.4 蒸馏：赋予小型模型推理能力：使用DeepSeek-R1作为教师模型，通过蒸馏将推理能力传递给小型密集模型，显著提升了这些模型的推理能力。
实验
- 基准测试：在MMLU、MMLU-Pro、GPQA Diamond、SimpleQA、LiveCodeBench、Codeforces等多个基准测试中评估模型性能。
- 评估提示：使用零样本提示，避免少样本提示对性能的负面影响。
- 基线模型：与DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini等模型进行比较。
- 评估设置：使用pass@??评估方法，生成多个响应并计算平均准确性。
讨论

Vondy
下一代AI应用平台，汇集了一流的工具/应用程序

下载
- 蒸馏与强化学习：蒸馏方法在提升小型模型推理能力方面表现出色，而直接在小型模型上应用RL则需要更多的计算资源。
- 未成功的尝试：探索了过程奖励模型（PRM）和蒙特卡洛树搜索（MCTS），但这些方法在大规模训练中面临挑战。
结论、局限性和未来工作
- 结论：DeepSeek-R1通过强化学习显著提升了推理能力，与OpenAI-o1-1217相当。
- 局限性：DeepSeek-R1在某些任务（如函数调用、多轮对话）上的表现不如DeepSeek-V3，且存在语言混杂问题。
- 未来工作：计划进一步提升模型的通用能力，优化语言混杂问题，并探索更高效的训练方法。论文还开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama的多个蒸馏模型，为研究社区提供了宝贵的资源。

DeepSeek R1&V3 原版论文摘要

《DeepSeek-V3 技术报告》

论文原文：https://www.php.cn/link/9a9507ccbb6be14e614c0c61cb485c83

研究背景近年来，大型语言模型（LLMs）在人工智能领域取得了快速的发展，逐渐接近通用人工智能（AGI）。开源模型如 DeepSeek 系列、LLaMA 系列等也在不断进步，努力缩小与闭源模型的差距。为了进一步提升开源模型的能力，研究者们推出了 DeepSeek-V3，这是一个参数规模更大的 MoE 模型，旨在通过高效的架构和训练策略实现更强的性能。

研究方法 DeepSeek-V3 的架构基于以下关键技术和策略：

Multi-head Latent Attention (MLA) 和 DeepSeekMoE：这两种架构在 DeepSeek-V2 中已经得到验证，能够实现高效的推理和成本效益的训练。
无辅助损失的负载平衡策略：通过动态调整专家的负载，避免了因负载平衡而导致的性能下降。
多 token 预测训练目标：通过预测多个未来 token 来增强模型性能。
FP8 混合精度训练：首次在大规模模型上验证了 FP8 训练的有效性，显著降低了 GPU 内存使用量并加速了训练。
高效的训练框架：包括 DualPipe 算法和跨节点 All-to-All 通信的优化，减少了通信开销并提高了训练效率。

实验与结果 DeepSeek-V3 在 14.8 万亿高质量和多样化的 token 上进行了预训练，并通过监督微调（SFT）和强化学习（RL）阶段进一步优化。在多个基准测试中，DeepSeek-V3 的表现超过了其他开源模型，并与领先的闭源模型（如 GPT-4o 和 Claude-3.5-Sonnet）相当。具体表现如下：

知识类基准测试：在教育基准测试（如 MMLU、MMLU-Pro 和 GPQA）中，DeepSeek-V3 的表现优于所有其他开源模型，与 GPT-4o 和 Claude-Sonnet-3.5 相当。
代码、数学和推理能力：在数学相关基准测试中，DeepSeek-V3 达到了非长链推理（CoT）模型中的最佳性能，甚至在某些基准测试中超过了 o1-preview。在编程竞赛基准测试（如 LiveCodeBench）中，DeepSeek-V3 的表现也优于其他模型。

关键结论 DeepSeek-V3 的主要贡献包括：

架构创新：引入无辅助损失的负载平衡策略和多 token 预测训练目标，提升了模型性能。
高效的预训练：通过 FP8 混合精度训练和算法、框架、硬件的协同设计，实现了高效的训练，降低了训练成本。
知识蒸馏：从 DeepSeek-R1 系列模型中蒸馏推理能力，显著提升了模型的推理性能。
性能表现：在多个基准测试中，DeepSeek-V3 的表现优于其他开源模型，并与领先的闭源模型相当。

限制与未来方向尽管 DeepSeek-V3 在性能和训练效率方面表现出色，但在部署方面仍存在一些限制，例如推荐的部署单元较大，可能对小型团队造成负担。未来，研究者们计划继续优化模型架构，扩大训练数据规模，并探索更全面的模型评估方法，以推动模型能力的进一步提升。

《deepseek》r1版本和v3版本区别介绍

作业帮App如何自定义学习计划跟踪进度_作业帮App学习计划设置的规划方法

DeepSeek GRPO：原理及相关技术解析

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

如何微调推理大模型？以Qwen3/DeepSeek-R1为例

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6631

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

843

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2200

2024.03.01

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

500

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2918

2024.08.16

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板