微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 硬件教程 > 硬件测评 > 正文

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

花韻仙語

发布： 2025-09-29 10:09:00

原创

140人浏览过

陈丹琦新作：大模型强化学习的第三条路，8b 小模型超越 gpt-4o

结合 RLHF 与 RLVR 的优势，仅需 8B 参数的小模型便能超越 GPT-4o，并媲美 Claude-3.7-Sonnet。

陈丹琦团队最新研究引发广泛关注。

他们提出了一种名为 RLMT（Reinforcement Learning with Model-rewarded Thinking，基于模型奖励思维的强化学习）的新方法。该方法要求模型在输出最终答案前先生成思维链（CoT），并利用基于人类偏好的奖励模型对结果进行评估。

此方法可直接应用于基础模型，无需监督微调（SFT），显著降低了后训练的成本与复杂度。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

业界评价认为，RLMT 为通用强化学习设定了新的基准：谁定义了偏好标准，谁就掌握了后训练时代的“话语权”。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

让小模型实现对大模型的反超

尽管 RLVR（基于可验证奖励的强化学习）在数学推理和代码生成等任务中表现出色，但在开放性更强的任务（如撰写提纲、设计营养计划）上泛化能力有限。

而 RLMT 正是证明了，RLVR 范式同样适用于非结构化、主观性强的日常推理场景。

它通过引导模型在回答前生成长链推理，并采用与 RLHF 相同的人类偏好奖励模型进行在线强化学习，从而提升整体表现。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

即便是面对非代码或非数学问题，模型也能按步骤拆解：回顾背景→综合信息→提炼关键主题→确立核心准则→举例说明→形成结构化输出。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

例如，在 Wildbench 这一基于真实用户任务构建的评测基准上，经过 RLMT 优化的 Qwen2.5-7B 显著领先于其他同类模型。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

其训练流程如下：

给定用户提示 x，模型首先生成推理路径 z，再基于 z 输出最终回答 y，随后由奖励模型 r(x, y) 对 y 打分。

从数学角度看，RLMT 的优化目标为：

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

实验中使用的奖励模型为 Skywork-v2，基于人类偏好对回答的流畅性、相关性、逻辑性和创意等多个维度评分。

在优化算法方面，研究测试了 DPO、PPO 和 GRPO 等在线强化学习方法，发现 GRPO 表现最优。即便使用 DPO 或 PPO，RLMT 也始终优于传统 RLHF。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

训练数据来源于真实的用户对话，避免了 RLVR 常见的过度拟合数学与编程任务的问题。

训练策略分为两种：

Voicepods

Voicepods

Voicepods是一个在线文本转语音平台，允许用户在30秒内将任何书面文本转换为音频文件。

Voicepods

93

Voicepods

Warm-start（带 SFT 预热）：先用少量 SFT 数据教会模型输出 CoT 格式，再通过 RLMT 进一步优化；
Zero（无 SFT 训练）：直接在基础模型上添加固定前缀提示，引导其学会“思考+回答”模式，仅靠 RLMT 即可超越标准 instruct 模型。

最终，RLMT 使模型的推理方式更接近人类——自动掌握分组归纳、约束分析、跨模块关联与迭代修正等高级思维技巧，显著提升了对话质量与创作能力。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

研究团队主要在 Llama3.1-8B 和 Qwen2.5-7B 两个模型上验证了 RLMT 的效果。

结果表明，小型模型经此方法训练后，性能可超越大型商用模型，同时大幅降低后训练资源消耗。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

来自普林斯顿的科研力量

本研究由三位学者共同完成：陈丹琦、Adithya Bhaskar 与叶曦。

陈丹琦现任普林斯顿大学计算机科学系副教授，领导普林斯顿 NLP 团队，近期加入 Thinking Machines Lab。她本科毕业于清华大学“姚班”，2018 年于斯坦福大学获得博士学位，师从 Christopher Manning，曾获被誉为“诺奖风向标”的斯隆奖。

她的研究聚焦于自然语言理解、知识表示与推理、问答系统、信息抽取及对话系统等领域。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

论文第一作者为 Adithya Bhaskar 与叶曦。

Adithya Bhaskar 是普林斯顿大学三年级博士生，师从陈丹琦。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

叶曦为普林斯顿语言与智能研究所博士后，本科毕业于清华大学，后于奥斯汀大学取得博士学位。其研究方向为 NLP，专注于提升大模型的可解释性与推理能力。

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o

论文地址：
https://www.php.cn/link/244b45ed436c1b580a34ca2770eca240

一键三连「点赞」「转发」「小心心」

欢迎在评论区分享你的看法！

— 完 —

量子位智库 AI100 季度榜单征集中！提名截止至 10 月 10 日。快来推荐 2025 年 Q3 的「AI 100」双榜单产品吧～

一键关注点亮星标

科技前沿动态每日更新

以上就是陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GPT-4o的详细内容，更多请关注php中文网其它相关文章！

相关标签：

大模型计算机 mac ai gpt gpt-4 claude 2025 算法 nlp https gpt

大家都在看：

办公鼠标终极之选？罗技MX Master 3S长期体验耳机舒适度长期体验？森海塞尔HD 660S2佩戴感受大疆无人机怎么用FPV模式_大疆无人机FPV模式飞行体验与操作要点大疆无人机怎么用农业模式_大疆无人机农业喷洒功能与操作安全指南松下摄像机如何调整白平衡_松下摄像机白平衡调节方法与实用技巧

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：《鲜 Phone 画报》vivo X300 幸运彩：丝绒凝光云握柔暖下一篇：三星 Galaxy S26 Ultra 再曝圆润边角设计，手写笔也调整

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

使用 Flexbox 优化导航栏布局与间距

2025-11-28 12:35:46
高效利用JavaScript map 方法进行条件渲染：提取数组中指定索引的元素

2025-11-28 12:37:02
Django中利用AJAX实现点击链接动态加载页面内容

2025-11-28 12:41:02
Tkinter斐波那契回撤工具：实现流畅的拖动与缩放功能

2025-11-28 12:41:54
Flask视图函数返回204“无内容”状态码的优雅实践

2025-11-28 12:47:02
JavaScript动态加载内容后事件监听失效的解决方案

2025-11-28 12:49:03
动态导航与用户认证：基于PHP会话实现登录状态感知按钮

2025-11-28 12:54:08
PHP utf8_encode 字符编码陷阱与正确处理 Unicode 字符指南

2025-11-28 12:56:12
Pandas中如何将分组值设置为DataFrame索引并实现层级展示

2025-11-28 13:02:02
什么是Tensor (TNSR)币？TNSR运作方式、代币经济学及价格预测

2025-11-28 13:04:02

最新问题

三色激光画质惊人！当贝D7X激光投影仪评测：三千元不到就能体验旗舰技术当贝D7X以三色激光技术带来越级画质，色彩准、对比度高，110%BT.2020色域还原鲜活影像，1600:1原生对比度展现丰富暗场细节，1100CVIA亮度支持白天观看；三色激光光源从源头规避有害蓝光，配合自动感应护眼模式更安全，适合家庭使用；搭载当贝AIOS6.0系统，开机无广告，海思8核芯片与2GB+64GB配置保障流畅运行，支持米家联动实现智能控制；建议在暗光环境使用以充分发挥画质优势，注意接口较少需拓展坞，游戏延迟适配休闲玩家。

2025-11-28 23:13:02

693

华硕天选6 Pro游戏本续航测试：酷睿i7-14650HX加持续航堪比轻薄本华硕天选6Pro搭载酷睿i7-14650HX和RTX5060，凭借90Wh电池、双显三模切换与高效功耗管理，在办公、影音等多场景实现长达9小时续航，同时保持2.5K分辨率下60FPS以上的游戏性能，兼顾长续航与高性能。

2025-11-28 23:00:12

562

首次对高通旗舰处理器实现全面超越！OPPO Find X9 Pro首发评测：万元内最值得购买的相机 OPPOFindX9Pro凭借顶级影像、性能与续航实现无短板旗舰体验；2.搭载哈苏联名超清四摄，2亿像素潜望长焦支持原生直出，配合LUMO引擎提升画质；3.主摄采用索尼LYT-828与哈苏色彩调校，成像真实细腻；4.搭载台积电3nm天玑9500芯片，性能强、能效优，游戏持久不降频；5.配备7500mAh大电池，支持80W有线和50W无线快充，续航无忧。

2025-11-28 22:55:03

946

石头洗地机A30 Pro Steam智享版评测：高温蒸汽加持清洁更彻底灭菌更高效石头A30ProSteam智享版以160℃高温蒸汽软化顽固污渍，配合86℃活水清洗和强力吸拖，实现高效去污与杀菌；双系统协同、AI助力、三侧贴边、毛发零缠绕设计提升清洁效率与覆盖范围；支持高温自清洁、银离子抗菌、95℃热风烘干及超长续航，全面解决清洁力、易用性与后期维护难题。

2025-11-28 22:42:06

979

哈趣X哈曼联名！哈趣Q1 Pro投影仪评测：百元级影音小钢炮宿舍也能投出大屏幕哈趣Q1Pro在百元价位表现出色，搭载AudiobyHARMAN音响系统，音质饱满清晰，370CVIA流明亮度配合真1080P分辨率和4K解码，画质表现优秀；支持自动对焦与梯形校正，追光灵动云台实现多角度投射，操作便捷；内置64GB存储的当贝AIOS系统无广告，资源丰富，支持WiFi6，延迟低；可作蓝牙音箱使用，接口齐全，适合观影、游戏等多场景，小巧便携且散热良好，是学生党与小户型用户的理想选择。

2025-11-28 22:33:14

360

真男人的梦中情板！技嘉X870E AORUS MASTER X3D ICE评测：X3D再打一管鸡血技嘉X870EAORUSMASTERX3DICE主板专为AMD锐龙9000系列X3D处理器优化，搭载X3DTurboMode2.0技术，支持AI场景识别与多档性能切换，实现游戏与创作场景下的最佳性能释放；配备18+2+2相豪华供电与全域散热系统，保障高负载稳定性；提供5个M.2接口、双USB4、万兆网卡及快拆设计，扩展性强且易于维护；采用真正全白PCB与元件设计，搭配RGB灯效，兼顾极致性能与美学追求，是X3D平台旗舰级首选。

2025-11-28 22:19:18

143

满血40Gbps速率！LaCie Rugged SSD4金刚钻Plus评测：移动数据最佳载体专业人士的不二选择 LaCieRuggedSSD4金刚钻Plus是一款高性能三防移动固态硬盘，1.具备40Gbps传输速度，读取超4000MB/s，实测达4062MB/s；2.支持雷电4/5，附赠40Gbps多功能橘色线缆；3.拥有3米防摔、1吨抗压、IP54防护等级；4.内置铝合金结构与可拆卸橡胶外套；5.采用35%回收材料，包装为再生无纺布；6.提供3年质保及一次免费原厂数据恢复服务；7.有1TB、2TB、4TB三种容量可选。

2025-11-28 21:59:02

984

石头洗地机A30 Pro Steam五合一版评测：洗地机功能再进化跨界覆盖全场景清洁石头洗地机A30ProSteam五合一版通过模块化设计实现一机多用，核心动力单元可拆卸，支持洗地、吸尘、除螨、缝隙清洁及桌面随手吸五种功能；搭载25000Pa大吸力电机与7300mAh电池，续航达100分钟；配备160℃高温蒸汽与86℃热水双模式，物理除菌率99.9999%；12.5cm超薄机身支持180°平躺，三侧贴边滚刷清洁无死角；双重鲨齿防缠绕技术有效处理毛发；AI全向助力系统操作轻便；支持蒸汽/高温自清洁加热风烘干，避免异味；充电底座集成收纳卡槽，整洁省空间；可选配布艺清洗配件拓展使用场

2025-11-28 21:38:55

453

卷完光源卷镜头！当贝X7 Max投影仪评测：纯三色激光已普及镜头移轴新赛道出现！当贝X7Max投影仪凭借原生4K三色激光、3000CVIA高亮度与110%BT.2020广色域实现顶级画质，搭载光学平移技术，支持画面无损上下120%、水平45%自由移动，配合杜比视界、杜比全景声及智能护眼功能，重新定义高端家用投影体验。

2025-11-28 21:37:02

970

最适合入门的无人机！大疆Neo 2评测：4K60帧影像全向避障随便飞！大疆Neo2通过全向避障和4K高清录制提升入门级无人机标准，配备双轴云台与手势控制实现智能拍摄，支持掌上起降与一键成片，结合19分钟续航及三电一充配件，降低航拍门槛，让新手轻松拍出稳定质感视频。

2025-11-28 21:30:08

404

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部