0

0

比 IMO 还难的数学挑战赛,谷歌赢了 OpenAI

聖光之護

聖光之護

发布时间:2026-03-02 08:33:22

|

640人浏览过

|

来源于ZAKER

转载

比 IMO 还难的数学挑战赛,谷歌赢了 OpenAIimo 金牌已经 " 过时 " 了。

基于 Gemini 3 Deep Think 的谷歌数学智能体Aletheia在更难的挑战赛FirstProof中拿下的最佳成绩。

在公布的完整成绩单中,10 道题 Aletheia 全程0 人工参与解出 6 道,其中 5 题专家全票通过,还有一题拿到了 5/7 的通过率。

 比 IMO 还难的数学挑战赛,谷歌赢了 OpenAI

FirstProof 是由来自哈佛、斯坦福等名校的 11 位顶尖数学家联手打造的一套专门验证 AI 独立科研能力的数学题集。

10 道题全网无迹可循,没法儿背答案作弊,连陶哲轩都转发说这事儿非常有意思,推荐关注。

 比 IMO 还难的数学挑战赛,谷歌赢了 OpenAI

不止谷歌,OpenAI 内部模型也考了这套题,基本正确的有 5 题。

但是!谷歌全程 AI 自主,OpenAI 在考试过程中动用了人工来挑最佳答案(doge)。

谷歌略胜一筹

FirstProof 由来自哈佛、斯坦福等名校的 11 位顶尖数学家出题。

和 IMO 这类竞赛题不同,最新挑战赛的 10 道题不是标准化的竞赛题,而是直接扒自数学家们真实遇到的难题,之前从没任何公开发布过。

而且,答案都是在 AI 考完之后才放出来的,这样就切断了 AI 通过背答案套模板的可能。

先看成绩单,OpenAI 冲刺七天,在 5 个问题上基本正确,分别是:

4. 有限加性卷积与 Φ 的调和平均不等式;

5. O- 适配切片滤过与切片连通性的几何不动点判据;

6. 大规模 ε - 轻顶点子集;

9. 缩放四线性行列式张量之间的代数关系;

10. 含缺失数据的核化 CP – ALS 子问题:基于 Kronecker 预条件的无矩阵 PCG 方法。

其实,初期 OpenAI 公布的成绩单有 6 题,结果第 2 题(非阿基米德局部域上 GL 的 Rankin – Selberg 积分非零性判定)反复被社区指出有逻辑问题,于是团队保守改成 5 道。

 比 IMO 还难的数学挑战赛,谷歌赢了 OpenAI

不过,团队透露在在测试过程中人工协调了该模型与 ChatGPT 之间的交流,用于验证、格式整理与风格调整。

有个别问题最终呈现的是人工挑选的最佳结果。

谷歌 Aletheia 这边,6 道题全都自主拿下,包括 OpenAI 被质疑的第 2 题。

在专家评审中,在 2、5、7、9、10 题获专家全票通过。

其中,第 7 题是公认的本套题集中难度最高的一题,是一个公开未解决的问题,直至本次 FirstProof 挑战赛发布标准答案时,才由 Cappell – Weinberger – Yan 团队完成首次解决。

第 8 题虽然没全票通过,但也拿到了 5/7 的高分。

对应的题目分别是:

2. 非阿基米德局部域上 GL 的 Rankin – Selberg 积分非零性判定;

5. O- 适配切片滤过与切片连通性的几何不动点判据;

7. 含 2- 挠率的实半单群一致格的紧流形基本群可实现性;

妙刷AI
妙刷AI

美团推出的一款新奇、好玩、荒诞的AI视觉体验工具

下载

8. 多面体拉格朗日曲面的 4- 顶点 Lagrangian 光滑化存在性;

9. 缩放四线性行列式张量之间的代数关系;

10. 含缺失数据的核化 CP – ALS 子问题:基于 Kronecker 预条件的无矩阵 PCG 方法。

要从解题数量和模式来看的话,谷歌 Aletheia 不仅解题数多 1 个,相比之下还靠 AI 全程自主略胜一筹。

 比 IMO 还难的数学挑战赛,谷歌赢了 OpenAI

接下来,咱继续看看 Aletheia 到底是个什么打法。

AI 自主最佳二选一

首先,底层模型就是之前拿了 IMO 金牌的 Gemini 3 Deep Think。

Aletheia 搭载了 AB 两个版本的 Gemini 3 Deep Think 模型,来了个最优二选一。(A 是 2026 年 2 月的最新版,B 是 2026 年 1 月的版本。)

然后是从读题到交卷的真 · 0 人工干预解题流程。

Aletheia 能直接读取不经过人类格式化的原始问题,自主推理后输出答案。

再通过内置的验证与提取提示自动校验答案的逻辑严谨性和规整格式,最终直接吐出 LaTeX 形式答案。

而且,剩下的没解出来的 4 道题倒也不是错了,而是直接 " 拒答 "。

这是由于由于含智能筛选机制,当 Aletheia 无法生成可靠的证明时,模型不会胡编乱造生成无效答案,而是直接输出 " 无解决方案 " 的回复。

 比 IMO 还难的数学挑战赛,谷歌赢了 OpenAI

Aletheia 还能动态调整推理资源的分配,比如遇到超难的第 7 题,它能自动投入远超常规题的推理算力,通过 Generator 子 agent 多轮生成 +Verifier 子 agent 严格校验,最终攻克。

而简单题则合理控制算力,避免资源浪费。

比如面对第 10 题这种张量分解的数值型题时,Aletheia 给出了矩阵 - 向量成绩高效计算的方法。

不直接生成超大维度的 Khatri-Rao 乘积矩阵 Z,而是通过动态生成所需行的方式,将每轮迭代的复杂度压缩到 O ( qr+n r ) ,比传统线性 solver 的 O ( n r ) 快几个量级。

这波谷歌略胜一筹,下一轮问题集 3 月中旬就要来了,难度只会更高,咱拭目以待~

参考链接:

[ 1 ] https://x.com/lmthang/status/2021644542852968952

[ 2 ] https://mathstodon.xyz/@tao/116022211452443707

[ 3 ] https://x.com/polynoamial/status/2022527227049742779

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 完 —

点亮星标

科技前沿进展每日见

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

50

2025.09.03

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

555

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

610

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

2993

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

1082

2024.03.05

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2747

2024.08.16

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

43

2026.02.28

Golang 工程化架构设计:可维护与可演进系统构建
Golang 工程化架构设计:可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则,涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术,帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

38

2026.02.28

Golang 性能分析与运行时机制:构建高性能程序
Golang 性能分析与运行时机制:构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面,深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略,并结合实际案例剖析 Go 程序的运行时行为,帮助开发者掌握构建高性能应用的关键技能。

35

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
550W粉丝大佬手把手从零学JavaScript
550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.4万人学习

尚硅谷JavaScript高级视频教程
尚硅谷JavaScript高级视频教程

共48课时 | 14.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号