0

0

DeepSeek R1&V3 原版论文摘要

絕刀狂花

絕刀狂花

发布时间:2025-04-22 14:10:01

|

1101人浏览过

|

来源于php中文网

原创

deepseek-r1:通过强化学习激励法学硕士的推理能力》

论文原文:https://www.php.cn/link/65d1b8a382fe0421b1c1d5b932baf87a

论文提要

  1. 引言

    • 背景:近年来,大型语言模型(LLMs)在快速迭代和进化,逐渐缩小了与通用人工智能(AGI)之间的差距。后训练(post-training)已经成为完整训练流程中的一个重要组成部分,能够提升模型在推理任务上的准确性、与社会价值观的对齐以及对用户偏好的适应性。
    • 问题:尽管OpenAI的o1系列模型通过扩展链式推理(CoT)过程在多种推理任务中取得了显著改进,但如何有效实现测试时扩展仍然是一个开放性问题。
    • 目标:论文的目标是通过纯强化学习(RL)提升语言模型的推理能力,探索LLMs在没有任何监督数据的情况下,通过自我进化发展推理能力的潜力。
  2. 方法

    • 2.1 概述:论文展示了即使不使用监督微调(SFT)作为冷启动,通过大规模强化学习(RL)也可以显著提升推理能力。进一步引入少量冷启动数据可以进一步提升性能。
    • 2.2 DeepSeek-R1-Zero:在基础模型上应用强化学习
      • 强化学习算法:采用GRPO(Group Relative Policy Optimization)算法,避免使用与策略模型大小相同的批评者模型,通过组分数估计基线。
      • 奖励建模:采用基于规则的奖励系统,包括准确性奖励和格式奖励。
      • 训练模板:设计了一个简单的模板,要求模型首先生成推理过程,然后提供最终答案。
      • 性能:DeepSeek-R1-Zero在AIME 2024基准测试中表现出色,pass@1分数从15.6%提升至71.0%,通过多数投票进一步提升至86.7%,与OpenAI-o1-0912相当。
    • 2.3 DeepSeek-R1:带有冷启动的强化学习
      • 冷启动:通过收集数千个长CoT数据微调基础模型,作为RL的起点。
      • 推理导向的强化学习:在微调后的模型上应用与DeepSeek-R1-Zero相同的RL训练过程。
      • 拒绝采样和监督微调:在RL收敛后,通过拒绝采样生成新的SFT数据,并结合其他领域的数据进行微调。
      • 面向所有场景的强化学习:在最终阶段,对模型进行额外的RL训练,优化其在各种场景下的表现。
    • 2.4 蒸馏:赋予小型模型推理能力:使用DeepSeek-R1作为教师模型,通过蒸馏将推理能力传递给小型密集模型,显著提升了这些模型的推理能力。
  3. 实验

    • 基准测试:在MMLU、MMLU-Pro、GPQA Diamond、SimpleQA、LiveCodeBench、Codeforces等多个基准测试中评估模型性能。
    • 评估提示:使用零样本提示,避免少样本提示对性能的负面影响。
    • 基线模型:与DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini等模型进行比较。
    • 评估设置:使用pass@??评估方法,生成多个响应并计算平均准确性。
  4. 讨论

    科大讯飞-AI虚拟主播
    科大讯飞-AI虚拟主播

    科大讯飞推出的移动互联网智能交互平台,为开发者免费提供:涵盖语音能力增强型SDK,一站式人机智能语音交互解决方案,专业全面的移动应用分析;

    下载
    • 蒸馏与强化学习:蒸馏方法在提升小型模型推理能力方面表现出色,而直接在小型模型上应用RL则需要更多的计算资源。
    • 未成功的尝试:探索了过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS),但这些方法在大规模训练中面临挑战。
  5. 结论、局限性和未来工作

    • 结论:DeepSeek-R1通过强化学习显著提升了推理能力,与OpenAI-o1-1217相当。
    • 局限性:DeepSeek-R1在某些任务(如函数调用、多轮对话)上的表现不如DeepSeek-V3,且存在语言混杂问题。
    • 未来工作:计划进一步提升模型的通用能力,优化语言混杂问题,并探索更高效的训练方法。论文还开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama的多个蒸馏模型,为研究社区提供了宝贵的资源。

DeepSeek R1&V3 原版论文摘要

《DeepSeek-V3 技术报告》

论文原文:https://www.php.cn/link/9a9507ccbb6be14e614c0c61cb485c83

研究背景 近年来,大型语言模型(LLMs)在人工智能领域取得了快速的发展,逐渐接近通用人工智能(AGI)。开源模型如 DeepSeek 系列、LLaMA 系列等也在不断进步,努力缩小与闭源模型的差距。为了进一步提升开源模型的能力,研究者们推出了 DeepSeek-V3,这是一个参数规模更大的 MoE 模型,旨在通过高效的架构和训练策略实现更强的性能。

研究方法 DeepSeek-V3 的架构基于以下关键技术和策略:

  • Multi-head Latent Attention (MLA) 和 DeepSeekMoE:这两种架构在 DeepSeek-V2 中已经得到验证,能够实现高效的推理和成本效益的训练。
  • 无辅助损失的负载平衡策略:通过动态调整专家的负载,避免了因负载平衡而导致的性能下降。
  • 多 token 预测训练目标:通过预测多个未来 token 来增强模型性能。
  • FP8 混合精度训练:首次在大规模模型上验证了 FP8 训练的有效性,显著降低了 GPU 内存使用量并加速了训练。
  • 高效的训练框架:包括 DualPipe 算法和跨节点 All-to-All 通信的优化,减少了通信开销并提高了训练效率。

实验与结果 DeepSeek-V3 在 14.8 万亿高质量和多样化的 token 上进行了预训练,并通过监督微调(SFT)和强化学习(RL)阶段进一步优化。在多个基准测试中,DeepSeek-V3 的表现超过了其他开源模型,并与领先的闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相当。具体表现如下:

  • 知识类基准测试:在教育基准测试(如 MMLU、MMLU-Pro 和 GPQA)中,DeepSeek-V3 的表现优于所有其他开源模型,与 GPT-4o 和 Claude-Sonnet-3.5 相当。
  • 代码、数学和推理能力:在数学相关基准测试中,DeepSeek-V3 达到了非长链推理(CoT)模型中的最佳性能,甚至在某些基准测试中超过了 o1-preview。在编程竞赛基准测试(如 LiveCodeBench)中,DeepSeek-V3 的表现也优于其他模型。

关键结论 DeepSeek-V3 的主要贡献包括:

  1. 架构创新:引入无辅助损失的负载平衡策略和多 token 预测训练目标,提升了模型性能。
  2. 高效的预训练:通过 FP8 混合精度训练和算法、框架、硬件的协同设计,实现了高效的训练,降低了训练成本。
  3. 知识蒸馏:从 DeepSeek-R1 系列模型中蒸馏推理能力,显著提升了模型的推理性能。
  4. 性能表现:在多个基准测试中,DeepSeek-V3 的表现优于其他开源模型,并与领先的闭源模型相当。

限制与未来方向 尽管 DeepSeek-V3 在性能和训练效率方面表现出色,但在部署方面仍存在一些限制,例如推荐的部署单元较大,可能对小型团队造成负担。未来,研究者们计划继续优化模型架构,扩大训练数据规模,并探索更全面的模型评估方法,以推动模型能力的进一步提升。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6142

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

816

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1065

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1340

2024.03.01

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

407

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2069

2024.08.16

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

16

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 9.5万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

Rust 教程
Rust 教程

共28课时 | 4.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号