0

0

首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升

WBOY

WBOY

发布时间:2023-04-10 14:21:08

|

2751人浏览过

|

来源于51CTO.COM

转载

我们知道,从谷歌 T5 模型到 OpenAI GPT 系列大模型,大语言模型(LLMs)已经展现出了令人印象深刻的泛化能力,比如上下文学习和思维链推理。同时为了使得 LLMs 遵循自然语言指令和完成真实世界任务,研究人员一直在探索 LLMs 的指令微调方法。实现方式有两种:一是使用人类标注的 prompt 和反馈在广泛任务上微调模型,二是使用通过手动或自动生成指令增强的公共基准和数据集来监督微调。​

在这些方法中,Self-Instruct 微调是一种简单有效的方法,它从 SOTA 指令微调的教师 LLMs 生成的指令遵循数据中学习,使得 LLMs 与人类意图对齐。事实证明,指令微调已经成为提升 LLMs 零样本和小样本泛化能力的有效手段。​

最近,ChatGPT 和 GPT-4 的成功为使用指令微调来改进开源 LLMs 提供了巨大的机遇。Meta LLaMA 是一系列开源 LLMs,其性能与 GPT-3 等专有 LLMs 相媲美。为了教 LLaMA 遵循指令,Self-Instruct 因其卓越性能和低成本被快速采用。比如斯坦福的 Alpaca 模型使用由 GPT-3.5 生成的 52k 指令遵循样本,Vicuna 模型使用约 70k 来自 ShareGPT 的指令遵循样本。​

为了推进 LLMs 指令微调的 SOTA 水平,微软研究院在其论文《Instruction Tuning with GPT-4》中首次使用 GPT-4 作为教师模型进行 self-intruct 微调。

图片

  • 论文地址:https://arxiv.org/pdf/2304.03277.pdf
  • 项目地址:https://instruction-tuning-with-gpt-4.github.io/
  • GitHub 地址:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

研究者一方面发布了 GPT-4 生成的数据,包括中英文的 52k 指令遵循数据集、GPT-4 生成的对三种指令微调模型的输出进行评级的反馈数据。 ​

另一方面基于 GPT-4 生成的数据开发了指令微调的 LLaMA 模型和奖励模型。为了评估指令微调 LLMs 的质量,研究者使用三个指标对测试样本进行评估:对三个对齐标准的人工评估、基于 GPT-4 反馈的自动评估以及非自然指令的 ROUGE-L(自动文摘评测方法之一)。​

实验结果验证了使用 GPT-4 生成的数据进行 LLMs 指令微调的有效性。GPT-4 生成的 52k 中英指令遵循数据在新任务上实现了较以往 SOTA 模型更好的零样本性能。目前,研究者已经公开了使用 GPT-4 生成的数据以及相关代码。

数据集​

该研究使用 GPT-4 生成以下四个数据集:

  • 英语指令遵循数据集(English Instruction-Following Data):对于从 Alpaca 收集到的 52K 指令,每个指令都提供了一个英文 GPT-4 答案。该数据集主要用来探索和比较 GPT-4 答案和 GPT-3 答案的数据统计。
  • 中文指令遵循数据集(Chinese Instruction-Following Data):该研究使用 ChatGPT 将 52K 指令翻译成中文,并要求 GPT-4 用中文回答。
  • 比较数据(Comparison Data):让 GPT-4 给自己的反应打分,分数范围从 1 到 10。此外,该研究还要求 GPT-4 对 GPT-4、GPT-3.5 和 OPT-IML 三种模型的响应进行比较和评分。这一数据集主要用来训练奖励模型。
  • 非自然指令的回答(Answers on Unnatural Instructions):GPT-4 的回答在 68K 指令 - 输入 - 输出三组核心数据集上解码。该子集用于量化 GPT-4 与指令微调模型之间的差距。​

图片

图 1 比较了 GPT-4 和 GPT-3.5 的英文输出响应集。图 1 (a) 和 (b) 显示了两个输出集合频率高于 10 的动 - 名词对(verb-noun pairs),图 1 (c) 比较了两个集合中出现频率最高的 25 对单词,图 1 (d) 比较了序列长度的频率分布,结果显示,GPT-4 倾向于生成比 GPT-3.5 更长的序列。

图片

指令微调语言模型​

该研究基于 LLaMA 7B checkpoint、并使用监督微调训练了两个模型:(i) LLaMA-GPT4 ,在 GPT-4 生成的 52K 英语指令遵循数据上训练。(ii) LLaMA-GPT4-CN,在来自 GPT-4 生成的 52K 中文指令遵循数据上训练完成。 

奖励模型

人类反馈强化学习 (RLHF) 旨在使 LLM 行为与人类偏好保持一致,奖励建模是其关键部分之一,这一问题被往往公式化为回归任务,以预测给定提示和响应之间的奖励。但这种方法通常需要大规模的比较数据,现有开源模型如 Alpaca、Vicuna 和 Dolly 由于标注比较数据成本很高,因此不涉及 RLHF。与此同时,最近的研究表明,GPT-4 能够识别和修复自己的错误,并准确判断响应的质量。因此,为了促进 RLHF 的研究,该研究使用 GPT-4 创建了比较数据,如上文所述。

为了评估数据质量,该研究还训练了一个基于 OPT 1.3B 的奖励模型进行该数据集的评估。比较数据的分布如图 2 所示。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

Type
Type

生成草稿,转换文本,获得写作帮助-等等。

下载

实验​

该研究利用以下三种类型进行评估:人类评估、GPT-4 以及非自然指令评估。结果证实,与其他机器生成的数据相比,使用 GPT-4 生成的数据是进行 LLM 指令微调的一种高效且有效的方法。接下来我们看看具体实验过程。

人类评估

图 3 (a) 为 LLaMA-GPT4 vs Alpaca 比较结果,实验表明在 Helpfulness 这一指标下,GPT-4 以 54.12% 的得分胜出。图 3 (b) 为 LLaMA-GPT4 vs GPT-4 比较结果,表明 GPT-4 指令微调的 LLaMA 的性能与原始的 GPT-4 类似。

图片

与使用自动求值的 SOTA 进行比较

该研究使用 GPT-4 对不同模型在 80 个未见问题上的回答进行自动评估。首先从 LLaMA-GPT-4 (7B) 和 GPT-4 两个聊天机器人中收集答案,并使用其他聊天机器人发布答案,包括 LLaMA (13B),Alpaca (13B),Vicuna (13B),Bard (谷歌,2023) 和 ChatGPT。对于每次评估,该研究要求 GPT-4 对两个模型之间的响应质量进行评分,评分范围从 1 到 10。结果如图 4 所示。

图片

图 4 (c,d) 比较了所有聊天机器人。LLaMA_GPT4 性能更高:7B LLaMA GPT4 的性能优于 13B Alpaca 和 LLaMA。然而,LLaMA_GPT4 与 GPT-4 等大型商业聊天机器人相比,仍有差距。​

研究者在下图 5 中进一步研究了所有聊天机器人的性能。首先使用 GPT-4 将聊天机器人的英文响应翻译成中文,接着使用 GPT-4 将英文问题翻译成中文以获得答案。与 GPT-4 翻译和生成的中文响应的比较如 5 (a) 和 5 (b) 所示,5 (c) 中显示了所有被要求用中文回答的模型结果。

图片

在下图 6 中,研究者将 LLaMA-GPT4 与 GPT-4、Alpaca 非自然指令进行比较。结果显示,LLaMA-GPT4 和 GPT-4 随 ground truth 响应长度的增加表现更好。这意味着当场景更具创意时,它们可以更好地遵循指令。当序列长度较短时,LLaMA-GPT4 和 GPT-4 都能生成包含简单 ground truth 答案的响应,并且添加额外单词可以使响应更像聊天。

图片

更多技术和实验细节请参阅原论文。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

2

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

2

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

0

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

0

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.29

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

25

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

16

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

622

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.7万人学习

Go 教程
Go 教程

共32课时 | 4.4万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号