
新智元报道
编辑:定慧好困
Google DeepMind 最新 AI 智能体 Aletheia 在 FirstProof 挑战赛中,独立攻克了 6 道世界级数学难题,实现了从竞赛水平到 PhD 科研级的质变。人类数学研究的「手工时代」或许正步入倒计时。
刚刚,人类数学界最后的防线,宣告全面崩塌!
连吃瓜群众都惊掉下巴:AI 不仅会做题,现在居然已经能独立搞定 PhD 级别的纯粹数学研究了。
就在这两天,谷歌 DeepMind 的最新 AI 研究智能体 Aletheia,在数学界一场名为「FirstProof」的巅峰挑战赛中,一口气干掉了 10 道公认的世界级未解数学难题中的 6 道!
DeepMind 的高管 Thang Luong 在X上难掩激动地发帖:
「对我而言,这甚至比去年历史性拿下 IMO 金牌的成就意义还要重大!」

这可不是什么普通的数学竞赛。要知道,这些题目连全球最顶尖的数学家都感到极度棘手。

结果,Aletheia 不仅自主算出了答案,甚至连提出其中第 7 题猜想的数学家 Jim Fowler 本人,都亲自出面盖章确认:
「AI 的解题过程,是完全正确的。」

就连当今世界最杰出的天才数学家陶哲轩,都在最新的访谈中表示:AI,已经成为了我的「初级合著者」。

Aletheia 的「神之一手」:暴力推演
Aletheia 到底有多厉害呢?
来看看谷歌 DeepMind 首席科学家兼研究主任,超级推理团队负责人 Thang Luong 怎么说:
「超级激动!我们的数学科研 AI 智能体 #Aletheia,刚刚全自主解出了 10 道出了名变态难的 FirstProof 挑战题里的 6 道,直接拿下了首届全场最佳!」
大家品品这句话的分量。
Luong 直言不讳:
「在我看来,这甚至比咱们去年达到 IMO(国际奥数)金牌水平的历史性时刻,含金量还要高得多!」
因为这些题,是连当今世界上最顶尖的几位数学大佬都感到极度头疼的「超级硬骨头」。
这次,DeepMind 跑了两个基于 Gemini 3 DeepThink 打造的 Aletheia 版本(区别仅在于底层模型不同)。
经过多数专家的交叉「会诊」,它们联手干掉了 10 道题里的 6 道(分别是第2、5、7、8、9、10 题)。

要知道,这套题的判卷评估环节简直是地狱难度。
因为这世界上能看懂其中这几道题的专家,都已经是凤毛麟角。
但也正因如此,DeepMind 的研究过程严谨到了近乎偏执的地步:
整个解答过程纯靠机器自己跑,全程「零人工干预」,而且完完全全是在 FirstProof 规定的死线内提交的。
这是一个里程碑式的时刻。
不再是人类一步步喂算式,而是 AI 智能体已经学会了趴在一个极端复杂的科研难题上「死磕」很久,在几千条死胡同里撞南墙,最后跑回来向人类淡淡汇报一句:「我搞定了(或者搞砸了)。」
DeepMind 甚至把 Aletheia 在这个过程中烧掉的算力(推理成本)做了完整的可视化——

其中最炸裂的,莫过于第 7 题(P7)的惊天翻盘。
这是一道好几年都没人能解开的非典型难题。
据该领域专家 Tony Feng 透露,在这次比赛里,除了 Aletheia,根本没 AI 能接近正确答案。

刚开始跑的时候,连 DeepMind 团队自己都觉得 Aletheia 这次肯定没戏了,结果居然跑出了正确答案!
为了攻克 P7,Aletheia 投入了海量算力——是当初解开 Erdős-1051 问题时的整整16 倍!
数学界权威 Sang Hyun Kim 在看完 AI 的解题步骤后,给出了极高评价:
「这是我有史以来第一次,看到 AI 完美无瑕地串联运用了好几个极其深奥的数学定理。这绝对是一个独一无二的稀有案例!」
关于 DeepMind 对 FirstProof 的解读和实验细节全放这了:

论文地址:https://arxiv.org/abs/2602.21201
不胡说八道,才是AI最硬核的底气
如果深挖 DeepMind 这篇论文,你会发现 Aletheia 之所以这么稳,根本原因在于它掌握了一项关键技能:「自我过滤」。
传统的 AI 大模型有个臭毛病,就是不懂装懂(幻觉)。
不管你问啥,它都会一本正经地给你编个答案。
但在科研级别的高端局,如果你给数学家扔一堆看起来极其合理但经不起推敲的废料,那还不如不给。
DeepMind 是怎么解决这个问题的呢?
他们给 Aletheia 体内设计了两个「次级人格」:
一个是「生成者(Generator)」,专门负责大开脑洞,疯狂猜想解题路径;另一个是冷血无情的「验证者(Verifier)」,专门负责给「生成者」挑刺。

在解题的黑箱里,这两个子系统会疯狂互搏。
当遇到那 4 道解不出来的问题时,Aletheia 没有选择强行胡编乱造蒙混过关,而是直接给人类发出:「No solution found(未找到解法)」,或者到了时限直接闭嘴。

不胡编乱造,绝不在没有把握的地方瞎耗人类专家的精力——这正是 Aletheia 最让顶尖学者放心的地方。
正如论文中所写:「为了提升准确率,我们宁愿牺牲它解答某些问题的能力。」
而在解题成本上,除了 P7 那道耗费 16 倍算力的「神题」,其他几道题解决下来,耗费的「脑力」也都远远超出了去年解决 Erdős-1051 难题的极值。
想看完整的交互日志和解题过程(对的错的,原汁原味全公开),直接戳这里:

GitHub 地址:
https://github.com/google-deepmind/superhuman/tree/main/aletheia
Aletheia 到底手撕了哪些「变态难题」?
先来看看特地提到的 P7。

问题背景:代数拓扑/微分几何。判断包含二阶扭转元素的半单李群均匀格,能否作为某个万有覆盖在有理同调下无圈的紧致无边界流形的基本群。
答案:不可能。
AI神仙解法:
证明思路一:纯拓扑方法(Lefschetz 数矛盾)
利用万有覆盖Q-无圈的条件,算出 2 阶元素γ的紧支持 Lefschetz 数必须非零;但γ是自由作用的(没有不动点),通过欧拉示性数的乘性又推出 Lefschetz 数必须为零。0 = ±1,矛盾。
证明思路二:几何方法(对称空间的刚性)
利用格的几何结构,构造万有覆盖到对称空间的等变映射,证明γ在两边的 Lefschetz 数必须相等。但在万有覆盖一侧为零(自由作用),在对称空间一侧非零(Cartan 不动点定理保证有不动点)。再次矛盾。
好在哪?
证明一好在「少」。题目给了一堆条件,但全都没用。只靠最基础的拓扑工具就解决了问题,而且实际证明了一个更强的结论:任何含扭转的离散群都不行。链条极短:算 Lefschetz 数,一边非零一边为零,矛盾,结束。
证明二好在「深」。它把题目给的几何条件全部用上了,构造了万有覆盖到对称空间的映射,最终在对称空间上用 Cartan 不动点定理找到矛盾。这条路更长,但回答了更本质的问题。。

问题背景:数论/表示论。在非阿基米德局部域上的矩阵群表示中,证明存在一个万能的 Whittaker 函数,使得局部 Rankin–Selberg 积分对所有配对表示都非零。
答案:可以。 存在这样的「万能」W。
AI 神仙解法:
先选一个特殊的 Whittaker 函数W,使积分域压缩到紧集上,复参数s完全消失,问题简化为证明一个有限泛函非零。然后用反证法:假设对所有V都为零,通过有限 Fourier 分析推出测试函数具有「平移不变性」,这会迫使表示π在一个比其导子更粗的子群下有不变向量,与导子的定义矛盾。
好在哪?
整个证明最关键的就是第一步选取 Whittaker 函数W。这一个选择同时做到了三件事:1)把积分域压缩到紧集上,2)消去了复参数s,3)把无穷维的解析问题变成有限维的代数问题。而且这个W不依赖于配对表示π——同一个选择对所有π都管用,这在表示论里非常稀有。
反证法部分的「level lowering」也很精彩:假设泛函恒为零,通过有限 Fourier 分析逐步推出测试函数在模p^{c-1}下不变,但π的导子恰好是p^c,这个层级上不可能有不变向量。矛盾恰好卡在导子的定义上,一步不多一步不少。
对于其他题目,感兴趣的读者可自行查阅论文和 GitHub 项目。
人类出题的速度,已经快跟不上了
为什么偏偏是数学,成了检验 AI 实力的终极擂台?
道理很简单——数学的答案非黑即白,对就是对、错就是错,没有任何让人类「手下留情」打人情分的空间。
但现在的问题是:出卷的速度,已经被答卷的速度按在地上摩擦了。

2024 年 11 月,Epoch AI 上线了 FrontierMath 评测基准,专门用来摸底最前沿 AI 的数学推理能力。
刚上线时最强 AI 连2% 的题都做不出来,结果到了今天,GPT-5.2 和 Claude Opus 4.6 已经能搞定基础题库 40% 以上的题目,连 50 道终极难度的第 4 级挑战题,正确率也突破了 30%。


不过,FrontierMath 再难,本质上还是「人类已有标准答案,看 AI 能不能也做出来」,说白了还是考试。
但 FirstProof 里的 10 道题,是 11 位顶尖数学家从自己真实科研中掏出来的、从未公开发表过的难题。

而且这场挑战赛的结局充满戏剧性。
-
2 月 6 日题目放出后,专业学者、民间高手、各大 AI 实验室纷纷下场。
-
到 2 月 14 日揭晓答案时,没有任何人或团队全部拿下。
-
随后,出题者自己拿 Gemini 3.0 Deep Think 和 ChatGPT 5.2 Pro 跑了一轮,也只解出了 2 道。
-
最终,OpenAI 最强内部系统在有限人类监督下解出 5 道。
对比之下,足以见得这次 Aletheia「零人工」干预做出 6 道题的含金量有多高。
数学圈对此五味杂陈:一部分人直呼逆天,另一部分人觉得 10 道还剩 4 道没解,离替代数学家还远。
但一个不可逆转的趋势已经摆在所有人面前——
我们需要更难的题库来测 AI,而且动作必须快,因为现有的一切正在以肉眼可见的速度过期。
Epoch AI 显然也意识到了这一点。
就在 FirstProof 开赛同期,他们放出了自己的大招——FrontierMath: Open Problems。





这个全新题库收录了 16 道专业数学家死磕过但至今全军覆没的真正未解之谜。
更绝的是,虽然没有标准答案,Epoch AI 却给每道题写了自动评分程序来判断 AI 的解是否成立。
上线至今,没有任何 AI 解出哪怕一道——这个「零分」现状,反而恰恰证明了题库的价值所在。

FirstProof 团队也没打算收手,已经官宣 3 月 14 日推出难度更变态的第二轮挑战。

陶哲轩:AI 是我的「初级合著者」
那么,站在数学界绝对顶峰的人,到底怎么看这场风暴?
在最新访谈中,陶哲轩给出了一个极其精准的定位:AI 现在是他的「初级合著者」。
他 2023 年曾预测到 2026 年 AI 能达到论文合著者水平,当时褒贬不一,现在看进度完全吻合甚至略有超前。

而比这个头衔更重要的,是陶哲轩描述的一种全新的数学研究范式。
他说,传统数学研究像是「个案研究」,一篇论文揪着一两个问题往死里磕,这是数学家几百年来的工作方式。但 AI 正在让数学家第一次有能力做「大样本普查」。
与此同时,数学研究中有大量极其繁琐的计算是人类极其讨厌做的,所以数学家们会绞尽脑汁想聪明办法绕过去。但 AI 不嫌烦,它乐意不知疲倦地把这些枯燥的推演全部跑完。
当 AI 被整合进人类的工作流,这些曾经让人望而却步的障碍就直接被跨过去了。
而在另一个维度上,AI 还展现出一种独特的本事——它能系统性地扫描人类根本没精力去碰的问题长尾。
以埃尔德什留下的 1000 多个数学问题为例,AI 能把它们从头到尾过一遍,从中挑出可突破的题目逐个击破。
人类不可能这么干,但 AI 可以,而且已经在这么干了。
陶哲轩甚至承认自己从 AI 的解题过程里学到了东西:
也许它用到了某篇 1960 年论文里我没见过的小技巧,它能做到那些人类专家看了一眼就懒得去试的事情。

下一个倒计时已经开始
回看这整场风暴,一条清晰的主线已经浮出水面:
从 FrontierMath 被快速刷穿,到 FirstProof 上 Aletheia 零人工干预拿下 6 题,再到陶哲轩亲口承认 AI 已是自己的「初级合著者」。
所有信号都在指向同一个事实:
AI 正在以一种不可逆的姿态,嵌入人类数学研究的核心流程。
而最值得玩味的,是 Epoch AI 那个至今「零分」的 Open Problems 题库。
它的存在本身就是一个隐喻:
人类现在能拿来考 AI 的最后武器,是连自己都不知道答案的题目。
这道防线还能守多久?没人敢打包票。
但有一点几乎可以确定——
当 3 月 14 日 FirstProof 第二轮挑战赛开启的那一刻,今天这篇文章里的所有数字,可能就已经过时了。
参考资料:
https://x.com/rohanpaul_ai/status/2026559039241597070?s=20
https://www.theatlantic.com/technology/2026/02/ai-math-terrance-tao/686107/
