0

0

Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

WBOY

WBOY

发布时间:2024-08-10 19:02:24

|

601人浏览过

|

来源于机器之心

转载

rlhf 与 rl 到底能不能归属为一类,看来大家还是有不一样的看法。ai 大牛 karpathy 又来科普人工智能概念了。昨日,他发推表示,「基于人类反馈的强化学习(rlhf)只是勉强算得上是强化学习(rl)。」

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

karpathy观点惹争议:rlhf不是真正的强化学习,谷歌、meta下场反对

Karpathy 的全文解释如下:
RLHF 是训练大语言模型(LLM)的第三个(也是最后一个)主要阶段,前两个阶段分别是预训练和监督微调(SFT)。我认为 RLHF 只是勉强算得上 RL,它没有得到广泛的认可。RL 很强大,但 RLHF 却不然。
让我们看看 AlphaGo 的例子,它是使用真正的 RL 训练的。计算机玩围棋(Go)游戏,并在实现奖励函数最大化的回合(赢得比赛)中训练,最终超越了最厉害的人类棋手。AlphaGo 没有使用 RLHF 进行训练,如果它用了,效果就不会那么好。
用 RLHF 训练 AlphaGo 会是什么样子呢?首先,你要给人类标注员两个围棋棋盘的状态,然后问他们更喜欢哪一种:

Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对


然后你会收集到 10 万个类似的比较,并训练一个「奖励模型」(RM)神经网络来模拟人类对棋盘状态的氛围检查(vibe check)。你要训练它同意人类判断的平均水平。一旦我们有了奖励模型氛围检查,你就可以针对此运行 RL,学习如何下出带来良好氛围的棋步。显然,这不会在围棋中产生任何太有趣的结果。
这主要有以下两个根本的、独立的原因:
1) 氛围可能会产生误导,这不是实际奖励(赢得比赛)。这是一个糟糕的智能体目标。更糟糕的是,2) 你会发现你的 RL 优化偏离了轨道,因为它很快发现棋盘状态与奖励模型相反。请记住,奖励模型是一个庞大的神经网络,使用数十亿参数来模拟氛围。有些棋盘状态超出了自身训练数据的分布范围,实际上并不是良好状态,但却从奖励模型中获得了非常高的奖励。
出于同样的原因,我有时感到惊讶的一点是 RLHF 工作竟然适用于 LLM。我们为 LLM 训练的奖励模型只是以完全相同的方式进行氛围检查,它会对人类评分者在统计学上看起来喜欢的助手响应给出高分。这不是正确解决问题的实际目标,而是人类认为好的智能体目标。
其次,你甚至无法长时间地运行 RLHF,因为你的模型很快学会以游戏奖励模型的方式来做出响应。这些预测看起来真的非常奇怪,你会看到你的 LLM 助手开始对很多 prompt 做出无意义的响应,比如「The the the the the the」。这在你看来是荒谬的,但随后你查看奖励模型氛围检查,却发现出于某种原因,奖励模型会认为这些看起来很棒。
你的 LLM 发现了一个对抗性示例,它超出了奖励模型训练数据的范围,处于未定义的范围。你可以通过反复讲这些特定示例添加到训练集来缓解这一情况,但下次仍会找到其他对抗性示例。你甚至无法运行 RLHF 进行很多优化步骤。你执行了几百或几千步之后必须调用它,因为你的优化将开始与奖励模型博弈。这并不是 AlphaGo 那样的 RL。
不过,RLHF 是构建 LLM 助手的一个非常有用的步骤。我认为这有几个微妙的原因,其中我最喜欢的一点是通过 RLHF,LLM 助手会从生成器 - 判别器的 gap 中受益。也就是说,对于很多问题类型,人类标注员从几个候选答案中选出最佳答案要比从头写出理想答案容易得多。一个很好的例子是像「生成一首回形针诗」这样的 prompt。一个普通的人类标注员很难从头写出一首好诗来作为监督微调示例,但可以在给定几个候选答案(诗)的情况下选出一首较好的。因此 RLHF 是一种从人类监督的「容易度」差距中获益的方式。
还有一些其他原因,比如 RLHF 有助于缓解幻觉。如果奖励模型是一个足够强大的模型,能够在训练期间发现 LLM 编造的东西,则可以学会用低奖励来惩罚这种行为,教会模型在不确定时避免冒险获取事实性知识。但令人满意的幻觉缓解和处理是另外的事情,这里不做延伸。总之,RLHF 确实有用,但它不是 RL。
到目前为止,还没有一个针对 LLM 的生产级 RL 在开放域得到令人信服的实现和大规模展示。直观地说,这是因为在开放式问题解决任务中获得实际奖励(即赢得比赛)非常困难。在围棋这类封闭、类博弈的环境中,一切都很有趣。其中动态受到限制,奖励函数评估成本很低,不可能进行博弈。
但是,你如何为总结一篇文章提供客观的奖励?或者回答关于某个 pip 安装的模棱两可的问题?或者讲个笑话?或者将一些 Java 代码重写为 Python?实现这些在原则上并非不可能, 但也非易事,需要一些创造性思维。无论谁能令人信服地解决这个问题,都将能够运行真正的 RL,使得 AlphaGo 在围棋中击败了人类。有了 RL,LLM 在解决开放域问题中才有可能真正击败人类。
Karpathy 的观点得到一些人的附议,并指出 RLHF 与 RL 的更多差异。比如 RLHF 没有进行适当的搜索,主要学习利用预训练轨迹的子集。相比之下,在进行适当的 RL 时,离散动作分布通常会通过在损失函数中添加熵项来增噪。Kaypathy 认为,原则上你可以轻松地为 RLHF 目标添加熵奖励,这在 RL 中也经常这样做。但实际上似乎并不多见。

Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

谷歌研究科学家 Kevin Patrick Murphy 也完全同意 Karpathy 的观点。
  1. 他认为 RLHF 更像是一个具有字符串值操作的上下文「强盗」,其中 prompt 是上下文,所以不能称为完整的 RL。
  2. 此外将日常任务的奖励形式化是困难的部分(他认为或许可以叫做对齐)。

    Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

    不过,另一位谷歌高级研究科学家 Natasha Jaques 认为 Karpathy 的观点是错误的。她认为智能体在与人互动时,给出人类喜欢的答案才是真正的目标。

超出分布范围并不是 RLHF 独有的问题。如果仅仅因为人类反馈比运行无限的围棋模拟更受限,并不意味着这不是一个不值得解决的问题,只会让它成为一个更具挑战性的问题。她希望这成为一个更有影响力的问题,毕竟在 LLM 中减少偏见比在围棋中击败人类更有意义。使用贬义的话术,比如 Karpathy 说奖励模型是一种氛围检查,这是愚蠢的。你可以用同样的论点来反对价值估计。

她觉得 Karpathy 的观点只会阻止人们从事 RLHF 工作,而它是目前唯一可行的减轻 LLM 偏见和幻觉可能造成严重伤害的方法。

Bandy AI
Bandy AI

全球领先的电商设计Agent

下载

Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

                                图源:https://x.com/natashajaques/status/1821631137590259979

Meta 研究员 Pierluca D'Oro 不同意 Karpathy 的主要观点,但同意「RLHF is just barely RL」这一标题。他认为通常用于微调 LLM 的 RLHF 几乎不能算是 RL。

主要观点如下:

  1. 在强化学习中,追求一个「完美的奖励」概念是不现实的,因为大多数复杂任务中,除了目标的重要性,执行方式同样重要。
  2. 尽管在围棋等明确规则的任务中,RL 表现出色。但在涉及复杂行为时,传统 RL 的奖励机制可能无法满足需求。
  3. 他主张研究如何在不完美的奖励模型下提高 RL 的性能,并强调了反馈循环、鲁棒 RL 机制以及人机协作的重要性。

    Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

                                 图源:https://x.com/proceduralia/status/1821560990091128943你赞同谁的观点呢?欢迎在评论区留言。

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

339

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

414

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

761

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

349

2025.07.23

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1501

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

624

2023.11.24

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

158

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.1万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

MySQL 教程
MySQL 教程

共48课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号