CMU&清华新作：让LLM自己合成数据来学习，特定任务性能同样大幅提升

WBOY

发布时间：2024-08-01 17:43:01

808人浏览过

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

cmu&清华新作：让llm自己合成数据来学习，特定任务性能同样大幅提升

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文主要作者来自清华大学和卡内基梅隆大学（CMU）。共同一作为清华大学计算机系本科毕业生赵晨阳，卡内基梅隆大学硕士生贾雪莹。
虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工标注数据。这类数据的收集过程既耗时又费力，对于数据稀缺的任务尤为困难。
为了解决这个问题，一些研究尝试通过强大的 Teacher Model 生成训练数据，来增强 Student Model 在特定任务上的性能。然而，这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。在无法持续获得高质量人类监督信号的情况下，如何持续迭代模型的能力，成为了亟待解决的问题。
来自卡内基梅隆大学和清华大学的研究团队提出了 SELF-GUIDE 方法。该方法通过语言模型自身生成任务特定的数据集，并在该数据集上进行微调，从而显著提升模型在特定任务上的能力，无需依赖大量外部高质量数据或更强大的 Teacher Model。具体来说，在外部输入大约 3 个样例的情况下，SELF-GUIDE 采用多阶段的生成和过滤机制，利用模型生成的合成数据进行微调，使模型在特定任务上的表现更加出色。

CMU&清华新作：让LLM自己合成数据来学习，特定任务性能同样大幅提升

论文地址：https://arxiv.org/abs/2407.12874代码仓库:https://github.com/zhaochenyang20/Prompt2Model- SELF-GUIDE

CMU&清华新作：让LLM自己合成数据来学习，特定任务性能同样大幅提升

图 1：SELF-GUIDE 利用模型自主合成数据的能力提升模型执行特定任务的能力。

方法

具体来说，研究团队将 SELF-GUIDE 方法分解为三个主要阶段：输入数据生成、输出数据生成和质量优化。

输入数据生成

在 SELF-GUIDE 框架的设计和实现过程中，研究者首先根据任务类型（生成型任务或分类型任务）指定不同的提示模板。对于生成型任务，SELF-GUIDE 框架使用一个相对简单的提示模板。而对于分类型任务，SELF-GUIDE 框架则采用了另一种策略。对于分类任务，SELF-GUIDE 框架首先从全部标签空间中随机选择一个标签，将其作为条件生成的伪标签，指导输入数据的生成。选定伪标签后，SELF-GUIDE 框架使用较为复杂的条件生成模板，引导模型生成与所选伪标签相对应的输入内容。

Inworld.ai

InWorldAI是一个AI角色开发平台，开发者可以创建具有自然语言、上下文意识和多模态的AI角色，并可以继承到游戏和实时媒体中

下载

CMU&清华新作：让LLM自己合成数据来学习，特定任务性能同样大幅提升

图 2：SELF-GUIDE 的核心在于一个高效的多阶段生成机制，其中语言模型逐步生成输入-输出数据组合。经过生成和过滤后，自生成的数据进一步用于微调语言模型本身。此图描述了 SELF-GUIDE 针对生成任务的流程。

选定模板并填充示例（few-shot examples）后，完整的提示被传递给 LLM，以生成输入数据。每轮提示后，新生成的输入会被添加到输入库中。从这个库中随机抽取一部分输入，并与初始示例中的输入合并，形成新的提示，逐步扩展 LLM 生成的输入集并且减少重复。SELF-GUIDE 仅进行一轮输入生成，随后在质量优化阶段，应用基于规则的过滤器来去除低质量的输入。

CMU&清华新作：让LLM自己合成数据来学习，特定任务性能同样大幅提升

图 3：此图描述了 SELF-GUIDE 完成分类任务的过程。对于分类任务的数据，SELF-GUIDE 首先生成伪标签，然后生成对应的输入，最后重新生成真实标签。
输出数据生成
输出数据生成阶段采用了典型的上下文学习方法：研究者向模型提供任务指令和原始示例，使模型对输入生成阶段产生的每一个输入进行标注。在获取所有输出后，再进行一轮基于规则的过滤，以选择最终的合成数据集。
质量优化
生成数据的质量对于下游训练的成功至关重要。SELF-GUIDE 采用了两种策略来提高质量：调整生成参数以提高生成质量并基于规则过滤掉低质量样本。
调整温度：调整温度是一种平衡多样性和质量的常见策略。SELF-GUIDE 框架在输入生成阶段使用较高的温度以鼓励多样性，在其他阶段通过使用较低的温度确保得到概率最高的输出，从而保证整体数据质量。然而，仅依靠温度调整不足以实现所需的平衡。因此， SELF-GUIDE 还在输入生成后和输出注释后分别进行了两轮基于规则的数据过滤。
噪声过滤（Noise Filter）：研究者手动整理了一份噪声术语列表，包括常见的问候语和噪声字符（例如，生成内容中的”\”）。如果生成示例的输入或输出中出现了任何来自这份列表的噪声术语， SELF-GUIDE 将丢弃整个示例。
长度过滤（Length Filter）：虽然示例的长度可能存在偏差，但是研究者认为这些示例在特定任务的长度分布方面仍然具有代表性。SELF-GUIDE 假设示例的长度遵循正态分布，并计算出输入样例的均值 μ 和标准差 σ，研究者假定生成示例的输入和输出长度应符合同一正态分布，并要求长度在 (μ − 2σ, μ + 2σ) 范围内。
整体参数微调（One Parameter Fits All）：为了使 SELF-GUIDE 生成符合指令和示例指定目标分布的训练数据，需要在标注数据点上优化各种超参数，包括生成输入输出的个数、输入数据生成的温度、输出数据生成的温度、微调参数等。研究者将实验测试任务分为两部分：一部分可以利用所有数据进行验证以调整生成参数，称为验证任务；另一部分的数据仅用于测试而不可用于调整参数，称为测试任务。研究者在验证任务上搜索 “最大化最差任务性能” 的参数，并将其固定用于测评 SELF-GUIDE 在测试任务上的表现。
实验结果
为了评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索，剩余的一半用于评估。在模型方面，研究者选择了 Vicuna-7b-1.5 作为输入生成、输出生成和微调的基础模型。在评估指标方面，研究者采用了与 Super-NaturalInstructions 基准相同的评估指标，即分类任务的 Exact Match 和生成任务的 ROUGE-L。
为了体现 SELF-GUIDE 的效果，研究者将 SELF-GUIDE 与其他指令跟随和上下文学习方法进行了比较：
1.Few-Shot ICL：作为主要基准，研究者与直接提示语言模型进行了比较。这种方法直接依赖于模型固有的指令跟随能力。
2.Self-ICL：Self-ICL 使用自生成的示例来提高零样本指令跟随。研究者在 Self-ICL 工作的基础上进行了修改，通过自生成尽可能多的示例（而不是固定个数的示例）填充提示词，从而增加参考样本数目。
3.Few-Shot Finetuning：直接利用输入的少量示例进行微调。
SELF-GUIDE 原文主要实验结果如下所示。在基准的评估指标上，分类任务的绝对提升达到了 14.5%，而生成任务的绝对提升则达到了 17.9%。这些结果表明， SELF-GUIDE 在指导 LLM 向任务特定专业化方向发展方面具有显著效果，即使在数据极其有限的情况下。这突显了自我生成数据在大规模适应 LLM 到特定任务中的潜力。更多实验结果和消融实验请参考论文原文。

CMU&清华新作：让LLM自己合成数据来学习，特定任务性能同样大幅提升

图 4：对于每类任务（分类和生成任务），研究者将任务随机分成两半，一半用于调试 “One Parameter Fits All” 策略的参数，另一半用于使用这些调试好的参数测试 SELF-GUIDE 的性能。我们使用相同的解码参数和提示模板来评估模型在 SELF-GUIDE 前后的表现。

总结

SELF-GUIDE 框架鼓励模型自主生成训练数据并在此数据上进行微调。实验结果表明，这种方法在提升大规模语言模型特定任务的专业能力方面具有巨大潜力，尤其是在数据有限的情况下，SELF-GUIDE 可以有效解决缺少训练数据的问题。同时，这也为探索自主模型适应和持续学习的技术提供了参考。研究者希望这一工作能够推动 AI 系统在自主对齐和改进机制方面的发展，使其更加符合人类的意图。

如何优化简历中的实习经历不足利用DeepSeek深度挖掘校园潜力

ai怎么做渐变_ai渐变效果制作步骤【教学】

ai怎么截图_ai智能截图工具操作步骤【方法】

怎么用ai生成短视频_ai生成短视频制作流程【攻略】

如何实现短视频脚本的高产高效利用通义千问构建多版本创意大纲

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关专题

length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度，以便在查询和处理字符串数据时进行操作和判断。需要注意的是length函数计算的是字符串的字符数，而不是字节数。对于多字节字符集，一个字符可能由多个字节组成。因此，length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法，大家可以阅读本专题下面的文章。

954

2023.09.19

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4031

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2901

2024.08.16

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

187

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

339

2026.03.04