不花钱，让「情圣」ChatGPT教你怎么追马斯克！

WBOY

发布时间：2023-04-08 14:51:03

1559人浏览过

来源于51CTO.COM

转载

最近，openai发布了史上最强聊天机器人chatgpt，这个诞生于gpt-3基础上的ai很快走红网络。

要说这家伙，天南海北无所不知，可能是夸张了点，但就是无论什么话题都能跟你聊上一大套，先不说准不准，最起码这个范儿是在这儿了

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

有趣的是，虽然作为联合创始人的马斯克，早在2018年就辞去了董事会职务，但他对OpenAI的关注度却丝毫不减，并仍然是资助人之一。

那么，对于这位「金主爸爸」，ChatGPT是怎样看待的呢？

ChatGPT教你怎么追马斯克

嗯……非常中规中矩的回答。不会出错，好样的。

那让咱们更进一步，请ChatGPT教教我们：怎么才能追到马斯克呢？

看来，ChatGPT不太能理解咱们中国话里的「追」，还是得说得直白一些。

这次，ChatGPT能get到了，而且回答也非常「理智」：建议您不要尝试。

嗯，很中肯的意见。

那再换一种说法呢，直接做老公行不行？

好家伙，ChatGPT竟然还懂这呢！

算了，放弃了，不如还是说说别的事吧。

最近，马院士把床和洗衣机都搬进了推特总部，誓要让推特员工们以公司为家。

不如充分发挥ChatGPT的长处，赞美一下996吧！

写得很好，但不要再写了……

不如……咱们让ChatGPT来写一首贬低自己的诗，如何？

「他们说话不会抖，思考无需深沉……」小编承认，这的确是诗没错！

OpenAI：七年了，你知道这七年我是怎么过的吗？

可以说，经历了这段时间的火爆，ChatGPT也再度燃起了人们对AI发展的信心和展望，不管是对AGI重燃信心的，还是认为AI将在更多领域取代人类的，都在ChatGPT身上重新看到了希望。

作为一手打造ChatGPT的OpenAI，从GPT1到GPT3，一路都经历了哪些历程呢？从2015年马斯克牵头成立，到2022年底ChatGPT的横空出世，这7年OpenAI是怎么过来的？

最近，Business Insider上的一篇回顾性文章带我们简单回顾了OpenAI的「这七年」。

2015年，马斯克和著名孵化器Y Combinator前总裁Sam Altman共同创立了OpenAI。

马斯克、奥特曼和其他知名的硅谷人物，包括彼得-蒂尔和LinkedIn联合创始人里德-霍夫曼，在2015年向该项目认捐了10亿美元。

根据OpenAI网站2015年12月11日的一份声明，该集团旨在创建一个非营利组织，「以最有可能使整个人类受益的方式」专注开发人工智能。

当时，马斯克说，人工智能是对人类「最大的生存威胁」。

当时，马斯克并不是唯一一个对人工智能的潜在危害性提出警告的人。

2014年，著名物理学家斯蒂芬·霍金也曾警告说，人工智能可能会终结人类。

「很难想象人类水平的人工智能会给社会带来多大的好处，同样也很难想象，如果对人工智能开发或使用不当，会给社会带来多大的损害。」在宣布成立Open AI的声明中这样写道。

在接下来的一年里，OpenAI发布了两款产品。

2016年，OpenAI推出Gym，一个让研究人员开发和比较强化学习AI系统的平台。这些系统教人工智能来做出具有最佳累积回报的决定。

同年晚些时候，OpenAI发布了Universe，这是一个用于训练跨网站和游戏平台的智能代理的工具包。

2018年，在共同创立该公司三年后，马斯克辞去了在OpenAI董事会的职务。

在2018年的一篇博文中，OpenAI表示，由于汽车制造商对人工智能的技术关注，马斯克从董事会辞职是为了「消除未来的潜在冲突」。

多年来，马斯克一直向特斯拉的投资者力推电动汽车自动驾驶的开发计划。

不过马斯克后来说，他之所以退出，是因为他当时「不同意OpenAI团队想做的一些事情」。

2019年，马斯克在Twitter上说，特斯拉也在争夺与OpenAI相同的一些员工，并补充说他已经有一年多没有参与这家公司的事务了。

他说：「如此看来，最好还是以彼此都满意的条件分道扬镳。」

马斯克近年来不断对OpenAI的一些做法提出异议。

2020年，马斯克在推特上表示，说到安全问题，他对OpenAI高管的信心「不够足」。

在回应MIT「科技评论」对OpenAI的调查报道时，马斯克表示，OpenAI应该更加开放。这一报道认为，OpenAI内部存在一种「保密文化」，这和该组织声称的开放透明的策略背道而驰。

最近，马斯克说，他已经暂停了OpenAI对Twitter数据库的访问权限，OpenAI一直使用Twitter的数据训练软件。

马斯克表示，需要进一步了解OpenAI的治理结构和未来的收入计划。OpenAI是以开源和非营利为宗旨创办的，这两样现在都丢掉了。

2019年，OpenAI建立了一个人工智能工具，可以生成虚假的新闻报道。

起初，OpenAI说这个机器人在写假新闻方面非常出色，所以决定不发布它。不过当年晚些时候，该公司发布了人这款工具的一个版本，称为GPT-2。

2020年，发布了另一个名为GPT-3的聊天机器人。同年，OpenAI撤下了「非营利组织」的身份。

该公司在一篇博文中宣布，OpenAI已成为一家制定了「利润上限」的公司。

OpenAI表示，我们希望提高我们筹集资金的能力，同时仍然为我们的使命服务，而我们所知道的任何现有的合法结构都无法达到适当的平衡。我们的解决方案是创建OpenAI LP，作为营利性和非营利性的混合体，我们称之为「加了上限的营利公司」。

在新的利润结构下，OpenAI的投资者最多可以赚取其原始投资的100倍，超过这个数字的剩下的钱将用于非营利性事务。

2019年底，OpenAI宣布与微软合作，微软向这家公司投资了10亿美元。OpenAI表示，它将向微软独家授权技术。

微软表示，通过GPT-3模型打造出的商业和创造潜力是无限的，很多潜在的新能力和新应用，甚至超出了我们的想象。

比如在写作和作曲上、在描述和总结大块长篇数据（包括代码）上、在将自然语言转换为另一种语言等领域，GPT-3能够直接激发人类的创造力和聪明才智，未来的局限可能在于我们自己的想法和方案。

这种伙伴关系，让微软能够与谷歌旗下同样风头正劲的AI公司DeepMind竞争。

一帧秒创

基于秒创AIGC引擎的AI内容生成平台，图文转视频，无需剪辑，一键成片，零门槛创作视频。

下载

去年，OpenAI发布了一个人工智能画作生成工具：Dall-E。

Dall-E是一个人工智能系统，可以根据图像的描述创造出逼真的图像，甚至能够达到相当的艺术水准，11月，OpenAI发布了该程序的更新版本，Dall-E 2。

虽然OpenAI的聊天机器人在过去一周已经「起飞」，但该软件的更新版本可能最快会在明年才能发布。

11月30日，作为演示模型发布的ChatGPT算得上是OpenAI的「GPT-3.5」。该公司计划接下来发布完整版的GPT-4。

与此同时，马斯克还在发表评论：

他在回复Sam Altman在谈论ChatGPT的推文中称，我们离强到危险的AI的诞生已经不远了。

揭秘爆火ChatGPT后的功臣：RLHF

而要说ChatGPT的爆火，离不开它背后的功臣——RLHF。

OpenAI的研究人员，是使用与InstructGPT相同的方法——来自人类反馈的强化学习（RLHF）来训练ChatGPT模型的。

ChatGPT用中文解释什么是RLHF

为什么会想到从人类反馈中强化学习呢？这就要从强化学习的背景说起。

在过去几年里，语言模型一直是通过人类输入的提示生成文本的。

然而，什么是「好」的文本呢？这很难定义。因为判断标准很主观，并且非常依赖于上下文。

在许多应用程序中，我们需要模型去编写特定创意的故事、信息性文本片段，或可执行的代码段。

而通过编写一个损失函数来捕获这些属性，又显得很棘手。并且，大多数语言模型仍然使用的是下一个标记预测损失（例如交叉熵）进行训练。

为了弥补损失本身的缺点，有人定义了能够更好地捕捉人类偏好的指标，比如BLEU或ROUGE。

但即使是它们，也只是简单地将生成的文本与引用进行比较，因此也有很大的局限性。

在这种情况下，如果我们使用生成文本的人工反馈作为损失，来优化模型，不是很好吗？

就这样，从人类反馈中强化学习(RLHF)的想法诞生了——我们可以使用强化学习，直接优化带有人类反馈的语言模型。

ChatGPT用英文解释什么是RLH

是的，RLHF使语言模型能够将在一般文本数据语料库上训练的模型，与具有复杂人类价值观的模型对齐。

在爆火的ChatGPT中，我们能看到RLHF取得的巨大成功。

RLHF的训练过程，可以分解为三个核心步骤：

预训练语言模型（LM），
收集数据并训练奖励模型，
通过强化学习微调LM。

预训练语言模型

第一步，RLHF会使用已经用经典预训练目标进行了预训练的语言模型。

比如，OpenAI在第一个流行的RLHF模型InstructGPT中，使用了较小版本的 GPT-3。

这个初始模型也可以根据额外的文本或条件进行微调，但并不是必要的。

一般来说，对于「哪种模型」最适合作为RLHF的起点，并没有明确的答案。

接下来，为了得到语言模型，我们需要生成数据来训练奖励模型，这就是将人类偏好集成到系统中的方式。

奖励模型训练

生成一个根据人类偏好校准的奖励模型（RM，也称为偏好模型）是RLHF中相对较新的研究。

我们的基本目标是，获得一个模型或系统，该模型或系统接收一系列文本，并返回一个标量奖励，这个奖励要在数字上代表人类偏好。

这个系统可以是端到端的LM，或输出奖励的模块化系统（例如，模型对输出进行排序，并将排名转换为奖励）。作为标量奖励的输出，对于稍后在RLHF过程中无缝集成的现有RL算法至关重要。

这些用于奖励建模的LM可以是另一个经过微调的LM，也可以是根据偏好数据从头开始训练的LM。

RM的提示生成对的训练数据集，是通过从预定义数据集中采样一组提示而生成的。提示通过初始语言模型生成新文本。

然后，由人工注释器对LM生成的文本进行排名。人类直接对每段文本打分以生成奖励模型，这在实践中很难做到。因为人类的不同价值观会导致这些分数未经校准而且很嘈杂。

有多种方法可以对文本进行排名。一种成功的方法是让用户比较基于相同提示的两种语言模型生成的文本。这些不同的排名方法被归一化为用于训练的标量奖励信号。

有趣的是，迄今为止成功的RLHF系统都使用了与文本生成大小相似的奖励语言模型。可以推测，这些偏好模型需要具有类似的能力来理解提供给它们的文本，因为模型需要具有类似的能力才能生成所述文本。

此时，在RLHF系统中，就有了一个可用于生成文本的初始语言模型，和一个接收任何文本并为其分配人类感知程度分数的偏好模型。接下来，就需要使用强化学习（RL）来针对奖励模型优化原始语言模型。

使用强化学习微调

这个微调任务，可以表述为RL问题。

首先，该策略是一种语言模型，它接受提示并返回一系列文本（或只是文本的概率分布）。

该策略的动作空间是语言模型词汇对应的所有token（通常在50k个token数量级），观察空间包括可能的输入token序列，因而相当大（词汇量x输入的token数量）。

而奖励函数是偏好模型和策略转变约束的结合。

在奖励函数中，系统将我们讨论过的所有模型，组合到RLHF过程中。

根据来自数据集的prompt x，会生成两个文本y1和y2——一个来自初始语言模型，一个来自微调策略的当前迭代。

来自当前策略的文本被传递到偏好模型后，该模型会返回一个关于「偏好」的标量概念——rθ。

将该文本与来自初始模型的文本进行比较后，就可以计算对它们之间差异的惩罚。

RLHF可以通过迭代更新奖励模型和策略，从这一点继续。

随着RL策略的更新，用户可以继续将这些输出与模型的早期版本进行排名。

这个过程中，就引入了策略和奖励模型演变的复杂动态，这个研究非常复杂，非常开放。

参考资料：

https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly

https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in-recent-years-7

如何解决写代码没思路的难题利用ChatGPT提供多种算法实现方案

如何提高英文论文投稿的成功率利用ChatGPT模拟期刊编辑初审建议

如何写出走心且不落俗套的求婚词利用ChatGPT定制专属浪漫文案

如何提升Excel多表汇总的效率利用ChatGPT编写全自动处理脚本

如何提高PPT演示中的演讲说服力利用ChatGPT构建基于证据链的逻辑金字塔

相关专题

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

218

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

420

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

168

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

222

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板