GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

WBOY

发布时间：2023-04-11 19:58:01

2119人浏览过

来源于51CTO.COM

转载

果然，能打败昨天的OpenAI的，只有今天的OpenAI。

刚刚，OpenAI震撼发布了大型多模态模型GPT-4，支持图像和文本的输入，并生成文本结果。

号称史上最先进的AI系统！

GPT-4不仅有了眼睛可以看懂图片，而且在各大考试包括GRE几乎取得了满分成绩，横扫各种benchmark，性能指标爆棚。

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大家都还记得，2月初时微软和谷歌鏖战三天，2月8日微软发布ChatGPT必应时，说法是必应「基于类ChatGPT技术」。

今天，谜底终于解开了——它背后的大模型，就是GPT-4！

图灵奖三巨头之一Geoffrey Hinton对此赞叹不已，「毛虫吸取了营养之后，就会化茧为蝶。而人类提取了数十亿个理解的金块，GPT-4，就是人类的蝴蝶。」

顺便提一句，ChatGPT Plus用户现在可以先上手了。

考试几乎满分，性能跃迁炸天

在随意谈话中，GPT-3.5和GPT-4之间的区别是很微妙的。只有当任务的复杂性达到足够的阈值时，差异就出现了，GPT-4比GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

为了了解这两种模型之间的差异，OpenAI在各种基准测试和一些为人类设计的模拟考试上进行了测试。

GPT-4在各种考试中，有几个测试几乎接近了满分：

USABO Semifinal 2020（美国生物奥林匹克竞赛）
GRE Writing

以美国 BAR律师执照统考为例，GPT3.5可以达到 10%水平，GPT4可以达到90%水平。生物奥林匹克竞赛从GPT3.5的31%水平，直接飙升到 99%水平。

此外，OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。从实验结果来看，GPT-4 大大优于现有的大型语言模型，以及大多数 SOTA 模型：

另外，GPT-4在不同语种上的能力表现：中文的准确度大概在 80% 左右，已经要优于GPT-3.5的英文表现了。

许多现有的 ML 基准测试都是用英语编写的。为了初步了解GPT-4其他语言的能力，研究人员使用 Azure翻译将 MMLU 基准（一套涵盖57个主题的14000个多项选择题）翻译成多种语言。

在测试的 26 种语言的 24 种中，GPT-4 优于 GPT-3.5 和其他大语言模型（Chinchilla、PaLM）的英语语言性能：

OpenAI表示在内部使用 GPT-4，因此也关注大型语言模型在内容生成、销售和编程等方面的应用效果。另外，内部人员还使用它来帮助人类评估人工智能输出。

对此，李飞飞高徒、英伟达AI科学家Jim Fan点评道：「GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分，几乎和人类考生没有区别。也就是说，GPT-4可以全靠自己考进斯坦福了。」

（Jim Fan自己就是斯坦福毕业的！）

网友：完了，GPT-4一发布，就不需要我们人类了……

读图做题小case，甚至比网友还懂梗

GPT-4此次升级的亮点，当然就是多模态。

GPT-4不仅能分析汇总图文图标，甚至还能读懂梗图，解释梗在哪里，为什么好笑。从这个意义上说，它甚至能秒杀许多人类。

OpenAI称，GPT-4比以往模型都更具创造力和协作性。它可以生成、编辑和迭代用户进行创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。

GPT-4可以将图像作为输入，并生成标题、分类和分析。比如给它一张食材图，问它用这些食材能做什么。

另外，GPT-4能够处理超过25,000字的文本，允许用长形式的内容创建、扩展会话、文档搜索和分析。

GPT-4在其先进的推理能力方面超过了ChatGPT。如下：

梗图识别

比如，给它看一张奇怪的梗图，然后问图中搞笑在哪里。

GPT-4拿到之后，会先分析一波图片的内容，然后给出答案。

比如，逐图分析下面这个。

GPT-4立马反应过来：图里的这个「Lighting充电线」，看起来就是个又大又过气的VGA接口，插在这个又小又现代的智能手机上，反差强烈。

再给出这么一个梗图，问问GPT-4梗在哪里？

它流利地回答说：这个梗搞笑的地方在于「图文不符」。

文字明明说是从太空拍摄的地球照片，然而，图里实际上只是一堆排列起来像地图的鸡块。

GPT-4还能看懂漫画：为什么要给神经网络加层数？

它一针见血地点出，这副漫画讽刺了统计学习和神经网络在提高模型性能方法上的差异。

图表分析

格鲁吉亚和西亚的平均每日肉类消费量总和是多少？在给出答案前，请提供循序渐进的推理。

果然，GPT-4清楚地列出了自己的解题步骤——

1. 确定格鲁吉亚的平均每日肉类消费量。

2. 确定西亚的平均每日肉类消费量。

3. 添加步骤1和2中的值。

做物理题

要求GPT-4解出巴黎综合理工的一道物理题，测辐射热计的辐射检测原理。值得注意的是，这还是一道法语题。

GPT-4开始解题：要回答问题 I.1.a，我们需要每个点的温度 T(x)，用导电棒的横坐标x表示。

随后解题过程全程高能。

你以为这就是GPT-4能力的全部？

老板Greg Brockman直接上线进行了演示，通过这个视频你可以很直观的感受到 GPT-4的能力。

最惊艳的是，GPT-4对代码的超强的理解能力，帮你生成代码。

Greg直接在纸上画了一个潦草的示意图，拍个照，发给 GPT说，给我按照这个布局写网页代码，就写出来了。

另外，如果运行出错了把错误信息，甚至错误信息截图，扔给GPT-4都能帮你给出相应的提示。

网友直呼：GPT-4发布会，手把手教你怎么取代程序员。

顺便提一句，用GPT-4还可以进行报税。要知道，每年美国人要花好多时间金钱在报税上面。

训练过程

和以前的GPT模型一样，GPT-4基础模型的训练使用的是公开的互联网数据以及OpenAI授权的数据，目的是为了预测文档中的下一个词。

这些数据是一个基于互联网的语料库，其中包括对数学问题的正确/错误的解决方案，薄弱/强大的推理，自相矛盾/一致的声明，足以代表了大量的意识形态和想法。

当用户给出提示进行提问时，基础模型可以做出各种各样的反应，然而答案可能与用户的意图相差甚远。

因此，为了使其与用户的意图保持一致，OpenAI使用基于人类反馈的强化学习（RLHF）对模型的行为进行了微调。

不过，模型的能力似乎主要来自于预训练过程，RLHF并不能提高考试成绩（如果不主动进行强化，它实际上会降低考试成绩）。

基础模型需要提示工程，才能知道它应该回答问题，所以说，对模型的引导主要来自于训练后的过程。

GPT-4模型的一大重点是建立了一个可预测扩展的深度学习栈。因为对于像GPT-4这样的大型训练，进行广泛的特定模型调整是不可行的。

因此，OpenAI团队开发了基础设施和优化，在多种规模下都有可预测的行为。

为了验证这种可扩展性，研究人员提前准确地预测了GPT-4在内部代码库（不属于训练集）上的最终损失，方法是通过使用相同的方法训练的模型进行推断，但使用的计算量为1/10000。

现在，OpenAI 可以准确地预测在训练过程中优化的指标损失。例如从计算量为1/1000的模型中推断并成功地预测了HumanEval数据集的一个子集的通过率：

还有些能力仍然难以预测。比如，Inverse Scaling竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标，而 hindsight neglect任务是获胜者之一。但是GPT-4 扭转了这一趋势：

OpenAI认为能够准确预测未来的机器学习能力对于技术安全来说至关重要，但它并没有得到足够的重视。

而现在，OpenAI正在投入更多精力开发相关方法，并呼吁业界共同努力。

贡献名单

就在GPT-4发布的同时，Open AI还公开了GPT-4这份组织架构及人员清单。

上下滑动查看全部

北大陈宝权教授称，

再好看的电影，最后的演职员名单也不会有人从头看到尾。Open AI的这台戏连这个也不走寻常路。毫无疑问这将是一份不仅最被人阅读，也被人仔细研究的「演职员」(贡献者) 名单，而最大的看头，是详细的贡献分类，几乎就是一个粗略的部门设置架构了。

磁力开创

快手推出的一站式AI视频生产平台

下载

这个很「大胆」的公开其实意义挺深远的，体现了Open AI背后的核心理念，也一定程度预示了未来进步的走向。

拒绝“AI味”！让AI生成头像更自然的3个秘诀（光影调整/真实感纹理/眼神优化）

微信头像换新｜3步用AI生成头像：上传照片→选风格→一键导出（附操作步骤）

二次元/真人风/萌宠专属！AI生成头像的7种爆款风格（附效果对比图）

手机党福音！无需下载APP的5个AI头像小程序（微信直达/一键保存/社交分享）

你的头像是AI生成的吗？一文看懂AI作图与真人照片的7个核心区别

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关专题

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

拼多多赚钱的5种方法拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变，以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销，利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页，请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”，点击“添加新页面”并输入网址。若要使用主页按钮，需在“外观”设置中开启“显示主页按钮”并设定网址。

2026.01.26

苹果官方查询网站苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行，可用于查询序列号（SN）对应的保修状态、激活日期及技术支持服务。此外，查找丢失设备请使用 iCloud.com/find，购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

136

2026.01.26

npd人格什么意思 npd人格有什么特征

NPD（Narcissistic Personality Disorder）即自恋型人格障碍，是一种心理健康问题，特点是极度夸大自我重要性、需要过度赞美与关注，同时极度缺乏共情能力，背后常掩藏着低自尊和不安全感，影响人际关系、工作和生活，通常在青少年时期开始显现，需由专业人士诊断。

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心（Windows Defender）可通过系统设置暂时关闭，或使用组策略/注册表永久关闭。最简单的方法是：进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置，将实时保护等选项关闭。

2026.01.26

2026年春运抢票攻略大全春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务，并强调官方渠道唯一性与信息安全。

122

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例，应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元，专项扣除 1000 元，专项附加扣除 2000 元，当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元，对应税率为 3%，速算扣除数为 0，则当月应纳税额为 2000×3% = 60 元。

2026.01.26