0

0

开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

王林

王林

发布时间:2024-09-07 10:03:19

|

429人浏览过

|

来源于ZAKER

转载

开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。

新模型名为Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

比如最近流行的数 r 测试中,一开始它犯了和大多数模型一样的错误,但主动在 标签中纠正了自己。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

在官方评测中,70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准 GSM8K 上直接刷爆,得分 99.2%。

这个结果也让 OpenAI 科学家、德扑 AI 之父 Noam Brown 激情开麦:

GSM8K 得分 99%!是不是可以正式淘汰这个基准了?

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

模型刚刚上线网友就把试玩挤爆了,对此 Meta 还主动支援了更多算力。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

在网友测试中,Reflection 70B 能回答对 GSM8K 数据集中本身答案错误的问题:

我向模型提供了 GSM8K 中存在的 5 个 "ground_truth" 本身就不正确的问题。

模型没有重复数据集中的错误答案,而是全部回答对了,这很令人印象深刻,表明那 99.2% 的准确率并非来自于记忆测试集!

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

数各种 r 都不在话下,连生造词"drirrrngrrrrrnnn" 中有几个 r 也能被正确数对。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

网友纷纷对小团队做出的开源超越顶流闭源感到惊讶,现在最强开源模型可以在本地运行了。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

关键 70B 还只是个开始,官方表示下周还会发布更大的Reflection 405B。

预计 405B 性能将大幅优于 Sonnet 和 GPT-4o。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

Reflection 70B 权重已公开,API 访问将于今天晚些时候由 Hyperbolic Labs 提供。

模型能自我反思纠正错误

目前关于 Reflection 70B 的更多细节如下。

Reflection 70B 能力提升的关键,是采用了一种名为Reflection-Tuning的训练方法,它能够让模型反思自己生成的文本,在最终确定回应前检测并纠正自身推理中的错误。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

训练中的数据来自使用 GlaiveAI 平台生成的合成数据。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用与其它 Llama 模型相同的代码、pipeline 等从 Reflection Llama-3.1 70B 进行采样。

它甚至使用了标准的 Llama 3.1 聊天格式。

不过,Reflection 70B 引入了一些特殊 tokens,结构化输出过程。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

如下面这个例子所展示的,规划过程分为一个独立的步骤,这样做可以提高 CoT 效果,并保持输出精炼:

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

模型将从在 标签内输出推理开始,一旦对其推理感到满意,就会在 标签内输出最终答案。

所以它能够将其内部思考和推理与最终答案分离。

Jobright
Jobright

专为北美求职者设计的AI求职助手平台

下载

部分,模型可能会输出一个或多个 标签,这表明模型发现了其推理中的错误,并将在提供最终答案之前尝试纠正该错误。

系统提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.

(你是一个世界级人工智能系统,能够进行复杂的推理和反思。在标签内对查询进行推理,然后在标签内提供你的最终回应。如果你发现自己在任何时候推理出错,请在标签内纠正自己。)

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

此外值得一提的是,基准测试中,所有基准都已通过 LMSys 的 LLM Decontaminator 检查污染,隔离了 部分,并单独对这一部分进行测试。

使用 Reflection 70B 的时候,官方还分享了小 tips:

初步建议参数 temperature 为 .7 , top_p 为 .95

为提高准确性,最好附加 "Think carefully." 在 Prompt 末尾

官方还表示,下周会发布一份报告,详细介绍模型训练过程和发现。

Agent 创业团队打造

Reflection 70B 的背后是一支小团队,由 HyperWriteAI 的 CEO Mutt Shumer带领。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

领英显示,Mutt Shumer 是一位连续创业者,毕业于美国锡拉丘兹大学,现任 OthersideAI 的联合创始人兼 CEO。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

OthersideAI 是一家 AI 应用公司,致力于通过大规模 AI 系统开发全球最先进的自动补全工具,也是 HyperWrite 的幕后公司。

HyperWrite 是一个浏览器操作 agent,可以像人一样操作谷歌浏览器来完成一系列任务,比如订披萨:

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

和 gpt-llm-trainer 一样,你只需要用文字描述目标,它就会一边列步骤,一边执行。

刚推出时号称 " 比 AutoGPT 强 "。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

 HyperWrite 还可以在谷歌扩展程序中安装。

另外,Mutt Shumer 高中时期就创立了 Visos,致力于开发用于医疗用途的下一代虚拟现实软件。

还创立了 FURI,这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

虽然有 Meta 支持,但目前打开试玩,还是:暂时无法访问。

 开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

感兴趣的童鞋可以先码住了~

https://reflection-playground-production.up.railway.app/

参考链接:

[ 1 ] https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[ 2 ] https://x.com/mattshumer_/status/1831767014341538166

[ 3 ] https://x.com/polynoamial/status/1831798985528635806

[ 4 ] https://x.com/degeneratoor/status/1831809610451448196

[ 5 ] https://x.com/kimmonismus/status/1831772661296345333

相关专题

更多
if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

755

2023.08.22

class在c语言中的意思
class在c语言中的意思

在C语言中,"class" 是一个关键字,用于定义一个类。想了解更多class的相关内容,可以阅读本专题下面的文章。

465

2024.01.03

python中class的含义
python中class的含义

本专题整合了python中class的相关内容,阅读专题下面的文章了解更多详细内容。

13

2025.12.06

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

305

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

632

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1999

2024.08.16

excel表格操作技巧大全 表格制作excel教程
excel表格操作技巧大全 表格制作excel教程

Excel表格操作的核心技巧在于 熟练使用快捷键、数据处理函数及视图工具,如Ctrl+C/V(复制粘贴)、Alt+=(自动求和)、条件格式、数据验证及数据透视表。掌握这些可大幅提升数据分析与办公效率,实现快速录入、查找、筛选和汇总。

0

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.3万人学习

Go 教程
Go 教程

共32课时 | 4万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号