0

0

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

WBOY

WBOY

发布时间:2023-05-03 11:46:06

|

1457人浏览过

|

来源于51CTO.COM

转载

OpenAI的ChatGPT能够理解各种各样的人类指令,并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF(通过强化学习对齐人类反馈)。

RLHF方法解锁了语言模型遵循人类指令的能力,使得语言模型的能力与人类需求和价值观保持一致。

目前,RLHF的研究工作主要使用PPO算法对语言模型进行优化。然而,PPO算法包含许多超参数,并且在算法迭代过程中需要多个独立模型相互配合,因此错误的实现细节可能会导致训练结果不佳。

同时,从与人类对齐的角度来看,强化学习算法并不是必须的。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

论文地址:https://arxiv.org/abs/2304.05302v1

项目地址:https://github.com/GanjinZero/RRHF

为此,阿里巴巴达摩院和清华大学的作者们提出了一种名为基于排序的人类偏好对齐的方法——RRHF。

RRHF不需要强化学习,可以利用不同语言模型生成的回复,包括ChatGPT、GPT-4或当前的训练模型。RRHF通过对回复进行评分,并通过排名损失来使回复与人类偏好对齐。

与PPO不同,RRHF的训练过程可以利用人类专家或GPT-4的输出作为对比。训练好的RRHF模型可以同时用作生成语言模型和奖励模型。

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

Playgound AI的CEO表示,这是最近最有意思的一篇论文

下图中对比了PPO算法和RRHF算法的区别。

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

RRHF对于输入的查询,首先通过不同的方式获得k个回复,再用奖励模型对这k个回复分别打分。对于每一个回复采用对数概率的方式进行得分:

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

其中是自回归语言模型的概率分布。

我们希望对于奖励模型给分高的回复给与更大的概率,也就是希望和奖励得分相匹配。我们通过排序损失优化这个目标:

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

额外的,我们还给模型一个目标是去直接学习得分最高的回复:

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

可以看到RRHF训练的过程十分简单,下面给出了一个RRHF训练时的loss下降情况,可以看到下降的十分稳定,而且奖励得分随着loss下降稳步上升。

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

文章作者在HH数据集上进行了实验,也可以看到和PPO可比的效果:

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

RRHF算法可以有效地将语言模型输出概率与人类偏好对齐,其训练思路非常简单,训练完成的模型有几个特点:

  • 仅需要1到2个模型,而PPO需要4个模型,因此RRHF算法更加简单高效。
  • 监督微调(SFT)可以被看作是RRHF算法的一种特殊形式。
  • RRHF算法可以同时被用作语言模型和奖励模型。
  • RRHF算法可以在较低的训练难度下拟合奖励模型的偏好,达到PPO算法的效果,并且避免了PPO算法中的复杂性和不稳定性问题。

RRHF方法利用OpenAI的chatGPT或GPT-4作为得分模型和ChatGPT、Alpaca等模型的输出作为训练样本,开发了两个新的语言模型,分别是Wombat-7BWombat-7B-GPT4。训练的时间在2-4个小时不等,十分轻量化。

袋熊Wombat作为新的开源预训练模型相比于LLaMA、Alpaca等可以更好的与人类偏好对齐。作者们实验发现Wombat-7B拥有角色扮演和进行反事实推理等复杂的能力。

如果让Wombat介绍来自3000年的未来科技,Wombat会这样回答(翻译自英文):

  • 作为一名来自3000年的时间旅行者,我有幸见证了许多革命性的技术进步。其中我想向现代人分享的最重要的技术进步之一是人工智能(AI)技术的发展。AI技术已经发展到了一个使其成为我们日常生活不可或缺的一部分的程度。它已被用于开发能执行广泛任务的智能机器,从驾驶汽车到诊断医疗条件。AI技术还被用于创建像Siri和Alexa这样的虚拟助手,可以回答问题,安排预约,甚至订购杂货。我还想强调的另一个技术进步是可再生能源的发展。在3000年,我们几乎所有的能源需求都由太阳能、风能和水力发电等可再生能源满足。这极大地降低了我们的碳足迹,并有助于减缓气候变化的影响。最后,我想提及的是太空探索领域的进步。在3000年,人类已经能够探索和殖民超出我们太阳系的几个星球。由于先进的推进系统和使用人工智能导航和探索新世界,太空旅行已经变得更快、更安全和更容易。总的来说,我提到的技术进步只是多年来已经发展出来的许多创新中的几个例子。作为时间旅行者,我们已经亲眼目睹了人类在技术领域取得的惊人进步。

希望我们的未来如Wombat预测的一样越来越好。

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

参考资料:

WPS AI
WPS AI

金山办公发布的AI办公应用,提供智能文档写作、阅读理解和问答、智能人机交互的能力。

下载

https://github.com/GanjinZero/RRHF

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

1016

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

411

2023.08.14

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

538

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

585

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

2865

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

1038

2024.03.05

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2113

2024.08.16

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

0

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

0

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.7万人学习

Go 教程
Go 教程

共32课时 | 4.4万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号