这些技术，ChatGPT和它的潜在竞争者们都在用

王林

发布时间：2023-04-12 13:13:03

1786人浏览过

来源于51CTO.COM

转载

随着 ChatGPT 的出现以及随之而来的广泛讨论，RLHF、SFT、IFT、CoT 等晦涩的缩略词出现在公众面前，这都归功于 ChatGPT 的成功。这些晦涩的缩略词是什么？为什么它们如此重要？本文作者查阅了所有关于这些主题的重要论文，进行了分类总结。

ChatGPT 并不是第一个基于语言模型（LM）的对话智能体，事实上，许多机构在 OpenAI 之前发布过语言模型对话智能体，包括 Meta BlenderBot、Google LaMDA、DeepMind 的 Sparrow 和 Anthropic Assistant。一些机构也宣布建立开源聊天机器人的计划，并公开了路线图（如 LAION 的 Open-Assistant）。肯定还有其它机构在做同样的工作，只是没有宣布。

下表根据上面提到的 AI 聊天机器人是否可公开访问、训练数据、模型架构和评估的详细信息，对它们进行了比较。ChatGPT 没有相关数据，这里使用的是 InstructGPT 的资料，它是 OpenAI 的一个微调模型，被认为是 ChatGPT 的基础。

尽管在训练数据、模型和微调方面存在许多差异，但这些聊天机器人也存在一些共性 —— 指令遵循（instruction following），即根据用户的指令，给出响应。例如让 ChatGPT 写一首关于微调的诗。

从预测文本到遵循指令

通常而言，基础语言建模的目标不足以让模型高效地遵循用户的指示。模型创建者还使用指令微调（Instruction Fine-Tuning，IFT），它可以在多样化任务上对基本模型进行微调，还能应用在情感分析、文本分类、摘要等经典 NLP 任务。

IFT 主要由三个部分组成：指令、输入和输出。输入是可选的，有些任务只需要指令，如上面的 ChatGPT 示例。输入和输出构成实例（instance）。给定的指令可以有多个输入和输出。相关示例如下（[Wang et al., ‘22]）。

IFT 的数据通常使用人类的指令和语言模型 bootstrapped 的指令集合。对于 bootstraping，LM 会在零样本的情况下根据 prompt，生成新的指令、输入和输出。在每一轮中，模型都会得到从人类编写和生成模型中选择的样本的 prompt。人类和模型贡献数据集的情况可以用频谱表示，如下图所示。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一种是纯模型生成的 IFT 数据集如 Unnatural Instructions，另一种是集社区努力、手动创建的指令如 Super natural Instructions。位于这两者之间，选用高质量种子数据集然后进行 bootstrap 如 Self-instruct。为 IFT 收集数据集的另一种方法是将现有高质量众包 NLP 数据集用于各种任务（包括 prompting），并使用统一的模式或不同的模板将这些数据集作为指令，相关工作包括 T0、Natural instructions 数据集、FLAN LM 和 OPT-IML。

安全遵循指令

LM 使用微调后的指令，可能并不总是生成有用安全的响应。这种行为的示例包括无效回应（托词），总是给出诸如「对不起，我不明白」之类的无效回答，或者对用户关于敏感话题的输入做出不安全的回应。

为了解决这种问题，模型开发人员使用监督式微调（Supervised Fine-tuning, SFT），在高质量的人类标记数据上微调基础语言模型，以实现有效和安全的响应。

SFT 和 IFT 紧密相连。指令调优可以看作是监督式微调的子集。在最近的文献中，SFT 阶段通常用于安全主题，而不是在 IFT 之后进行的指令特定主题。未来这种分类和描述会有更清晰的用例和方法。

AIBox 一站式AI创作平台

AIBox365一站式AI创作平台，支持ChatGPT、GPT4、Claue3、Gemini、Midjourney等国内外大模型

下载

谷歌的 LaMDA 也是根据一组规则对带有安全注释的对话数据集微调。这些规则通常是由模型创建者预先定义和制定的，包含一系列广泛的主题，如有害、歧视和错误信息。

模型微调

另一方面，OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 ConstitutionalAI 均使用从人类反馈中强化学习（reinforcement learning from human feedback, RLHF）的技术。在 RLHF 中，模型响应基于人类反馈（如选择一个更好的答案）进行排序，然后用这些带注释的响应训练模型，以返回 RL 优化器的 scalar 奖励，最后通过强化学习训练对话智能体来模拟偏好模型。

思维链（Chain-of-thought, CoT）是指令演示的特殊情况，通过从对话智能体中引出逐步推理生成输出。用 CoT 进行微调的模型使用带有逐步推理的人类注释的指令数据集。如下示例所示，橙色标记代表指令，粉色标记代表输入和输出，蓝色标记代表 CoT 推理。

用 CoT 来微调的模型在涉及常识、算术和符号推理的任务上表现得更好。CoT 进行微调也显示出对实现无害性非常有效（有时比 RLHF 做得更好），并且模型不会回避并产生「对不起，我无法回答这个问题」等回复。

要点总结

本文要点总结如下：

1、与预训练数据相比，只需要非常小的一部分数据来对指令进行微调。

2、监督式微调使用人工标注使模型输出更安全和更有帮助。

3、 CoT 微调提高模型在逐步思考任务上的性能，并减少了它们在敏感话题上的无效响应或回避不答。

对话智能体的进一步工作思考

最后，作者对未来对话智能体的发展给出了自己的一些思考。

1、 RL 在从人类反馈中学习有多重要？可以通过 IFT 或 SFT 中的高质量数据训练获得与 RLHF 一样的性能吗？

2、与在 LaMDA 中使用 SFT 相比，在 Sparrow 中使用 SFT+RLHF 的安全性如何？

3、 IFT、SFT、CoT 和 RLHF，需要怎样程度的预训练？tradeoff 是什么？应该使用的最好的基础模型是什么？

4、文中介绍的许多模型都是经过精心设计，工程师们专门收集导致失败的模式，并根据已处理的问题改善未来的训练（prompts 和方法）。要如何系统地记录这些方法的效果并重现它们？

NotionAI如何多语言写作_NotionAI语言切换操作【操作】

aishort适合哪些人使用_aishort平台主要功能与使用场景介绍【介绍】

QClaw怎么让AI自己安装软件_QClaw自动环境配置与软件安装【操作】

StepClaw— 阶跃AI推出的云端AI助手，一键部署OpenClaw

豆包AI聊天怎么生成文章_豆包AI内容生成使用方法【指南】

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04