开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

王林

发布时间：2024-09-07 10:03:19

429人浏览过

来源于ZAKER

转载

开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。

新模型名为Reflection 70B，使用一种全新训练技术，让 AI 学会在推理过程中纠正自己的错误和幻觉。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

比如最近流行的数 r 测试中，一开始它犯了和大多数模型一样的错误，但主动在标签中纠正了自己。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

在官方评测中，70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特别是数学基准 GSM8K 上直接刷爆，得分 99.2%。

这个结果也让 OpenAI 科学家、德扑 AI 之父 Noam Brown 激情开麦：

GSM8K 得分 99%！是不是可以正式淘汰这个基准了？

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

模型刚刚上线网友就把试玩挤爆了，对此 Meta 还主动支援了更多算力。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

在网友测试中，Reflection 70B 能回答对 GSM8K 数据集中本身答案错误的问题：

我向模型提供了 GSM8K 中存在的 5 个 "ground_truth" 本身就不正确的问题。

模型没有重复数据集中的错误答案，而是全部回答对了，这很令人印象深刻，表明那 99.2% 的准确率并非来自于记忆测试集！

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

数各种 r 都不在话下，连生造词"drirrrngrrrrrnnn" 中有几个 r 也能被正确数对。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

网友纷纷对小团队做出的开源超越顶流闭源感到惊讶，现在最强开源模型可以在本地运行了。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

关键 70B 还只是个开始，官方表示下周还会发布更大的Reflection 405B。

预计 405B 性能将大幅优于 Sonnet 和 GPT-4o。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

Reflection 70B 权重已公开，API 访问将于今天晚些时候由 Hyperbolic Labs 提供。

模型能自我反思纠正错误

目前关于 Reflection 70B 的更多细节如下。

Reflection 70B 能力提升的关键，是采用了一种名为Reflection-Tuning的训练方法，它能够让模型反思自己生成的文本，在最终确定回应前检测并纠正自身推理中的错误。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

训练中的数据来自使用 GlaiveAI 平台生成的合成数据。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

Reflection 70B 基于 Llama 3.1 70B Instruct，可以使用与其它 Llama 模型相同的代码、pipeline 等从 Reflection Llama-3.1 70B 进行采样。

它甚至使用了标准的 Llama 3.1 聊天格式。

不过，Reflection 70B 引入了一些特殊 tokens，结构化输出过程。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

如下面这个例子所展示的，规划过程分为一个独立的步骤，这样做可以提高 CoT 效果，并保持输出精炼：

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

模型将从在和标签内输出推理开始，一旦对其推理感到满意，就会在和标签内输出最终答案。

所以它能够将其内部思考和推理与最终答案分离。

有道智云AI开放平台

下载

在部分，模型可能会输出一个或多个标签，这表明模型发现了其推理中的错误，并将在提供最终答案之前尝试纠正该错误。

系统提示如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.

（你是一个世界级人工智能系统，能够进行复杂的推理和反思。在标签内对查询进行推理，然后在标签内提供你的最终回应。如果你发现自己在任何时候推理出错，请在标签内纠正自己。）

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

此外值得一提的是，基准测试中，所有基准都已通过 LMSys 的 LLM Decontaminator 检查污染，隔离了部分，并单独对这一部分进行测试。

使用 Reflection 70B 的时候，官方还分享了小 tips：

初步建议参数 temperature 为 .7 ， top_p 为 .95

为提高准确性，最好附加 "Think carefully." 在 Prompt 末尾

官方还表示，下周会发布一份报告，详细介绍模型训练过程和发现。

Agent 创业团队打造

Reflection 70B 的背后是一支小团队，由 HyperWriteAI 的 CEO Mutt Shumer带领。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

领英显示，Mutt Shumer 是一位连续创业者，毕业于美国锡拉丘兹大学，现任 OthersideAI 的联合创始人兼 CEO。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

OthersideAI 是一家 AI 应用公司，致力于通过大规模 AI 系统开发全球最先进的自动补全工具，也是 HyperWrite 的幕后公司。

HyperWrite 是一个浏览器操作 agent，可以像人一样操作谷歌浏览器来完成一系列任务，比如订披萨：

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

和 gpt-llm-trainer 一样，你只需要用文字描述目标，它就会一边列步骤，一边执行。

刚推出时号称 " 比 AutoGPT 强 "。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

　HyperWrite 还可以在谷歌扩展程序中安装。

另外，Mutt Shumer 高中时期就创立了 Visos，致力于开发用于医疗用途的下一代虚拟现实软件。

还创立了 FURI，这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

虽然有 Meta 支持，但目前打开试玩，还是：暂时无法访问。

开源大模型新王干翻 GPT-4o，新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

感兴趣的童鞋可以先码住了～

https://reflection-playground-production.up.railway.app/

参考链接：

[ 1 ] https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[ 2 ] https://x.com/mattshumer_/status/1831767014341538166

[ 3 ] https://x.com/polynoamial/status/1831798985528635806

[ 4 ] https://x.com/degeneratoor/status/1831809610451448196

[ 5 ] https://x.com/kimmonismus/status/1831772661296345333

vivo X300 Ultra 即将首秀，MWC 见

荣耀新款折叠屏或再创轻薄世界记录：8.5mm+215 克

智驾感知迈入“超清”时代：解码鸿蒙智行全新激光雷达的技术颠覆力

最懂 iPhone 相机的人，回到苹果了

马斯克真没吹牛！世界模型 Genie 3 一键打造 GTA6 不是梦

相关专题

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

846

2023.08.22

class在c语言中的意思

在C语言中，"class" 是一个关键字，用于定义一个类。想了解更多class的相关内容，可以阅读本专题下面的文章。

870

2024.01.03

python中class的含义

本专题整合了python中class的相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.06

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2907

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板