人类在高度严谨的数学测试中仍优于AI
摘要
首次 Proof 测试评估了四种AI系统在新型研究级数学问题上的表现,其中最佳模型仅得6分(满分10分),表明当前AI在严谨推理方面仍落后于顶尖数学家。
暂无内容
查看缓存全文
缓存时间: 2026/06/15 00:57
# 人类在这一高难度数学测试中击败AI
来源: https://www.nature.com/articles/d41586-026-01888-9?error=cookies_not_supported&code=6aecaf13-cfea-4818-93db-a18c0c44892a
抽象手写数学公式与绘图的3D渲染图(紫色和粉色位于黑色背景上),置于虚拟空间中。在第一轮证明数学挑战中,表现最佳的人工智能模型得分为6/10。图片来源: vitacopS/Getty
人工智能刚刚经历了其最严格的数学测试。结果已经出炉,参与测试的AI模型未能达到顶尖数学家的解题水平。
这项测试是名为“First Proof”项目的一部分,旨在评估AI解决复杂数学问题的能力。测试向四个AI系统提出了十道研究级数学问题。一个由相关数学领域的匿名人类专家组成的评审团随后对模型的答案进行了评估。这是首个同时满足三个关键条件的同类测试:第一,题目属于研究级数学问题;第二,问题未出现在训练数据中;第三,由数学家正式评分。结果于6月10日在First Proof网站(https://1stproof.org/second-batch.html#results)上公布。
这些发现紧随近期AI在解决数学问题方面的突破。例如上个月,位于加利福尼亚州旧金山的科技公司OpenAI打造的一个聊天机器人解决了已故数学家保罗·埃尔德什提出的一道80年数学难题(https://www.nature.com/articles/d41586-026-01651-0)。First Proof团队表示,未来版本的测试可以帮助研究人员判断AI模型对数学家的实用程度,例如在自主解决问题、验证证明或担任研究助理方面。
## 证明这个
First Proof测试的一个重要创新在于,这些问题之前从未在已发表的文献或互联网上被提及——从而降低了模型仅仅重复训练中学到的信息的风险。相反,来自广泛数学领域的十位研究人员各自提供了一个问题,这些问题在其自身研究过程中已经解决但尚未发表。
First Proof曾在2月进行了一次试点测试(https://1stproof.org/first-batch.html),使用了另一批新颖问题。在那轮测试中,任何人都可以尝试用自己喜欢的AI系统来解决这些问题,许多团队也这样做了——但结果未经过First Proof团队的官方验证。也无法独立检查AI是否接受了人类帮助。
AI破解80年数学难题——研究者们震惊不已(https://www.nature.com/articles/d41586-026-01651-0)
这次,First Proof自行进行了测试:团队要求模型以完全自主的方式解决问题,并让一组30位数学家审核答案。“组织者显然更仔细地考虑了第二批测试,使其更加可控和系统化,”数学家杰里米·阿维加德表示,他在宾夕法尼亚州匹兹堡的卡内基梅隆大学领导计算机辅助推理数学研究所。
另一条规定是,参与模型必须公开可用。这意味着谷歌的Aletheia——一个专门为解决数学问题而设计的系统——以及Anthropic(位于加利福尼亚州旧金山)的Claude Mythos完整未发布版本无法使用。OpenAI是唯一参与的大型公司,其模型为ChatGPT 5.5 Pro。
其他系统由三个学术团队提供:加州大学洛杉矶分校(UCLA)、新泽西州的普林斯顿大学以及苏黎世的瑞士联邦理工学院(ETH)。这三个团队均在现有聊天机器人(如ChatGPT、谷歌的Gemini和Anthropic的Claude公开版本)之上构建了“套件”。(套件是一种自动化系统,它向聊天机器人提问,然后由另一个聊天机器人检查答案,通常需要反复交互。)
## 数学结果
ETH团队的模型表现最佳,利用一个由三大主要聊天机器人组成的“顾问委员会”对ChatGPT的答案进行审核或改进,解决了十个问题中的六个。UCLA团队在ChatGPT上构建了套件,排名第二,其次是OpenAI团队(不带套件的ChatGPT)和普林斯顿团队(主要使用Gemini 3.1 Pro作为后端的套件)。
相似文章
我们首次提交的 First Proof 证明
OpenAI 为 First Proof 挑战提交了证明尝试,该挑战是一项研究级别的数学竞赛,旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题(共十个),展示了其在持续推理和严谨数学思维方面的显著进展。
AI超越数学家
AI已经进步到能够为原创数学研究做出贡献的程度,超越了人类数学家,并可能减少对该职业的需求,尽管人类与AI的团队合作可能最终表现出色。
[Google DeepMind] AI联合数学家也在困难问题求解基准测试中取得了最先进的结果,包括在FrontierMath Tier 4上获得48%的得分,这是所有被评估AI系统的新最高分。
Google DeepMind的AI联合数学家取得了困难问题求解基准测试中的最先进结果,在FrontierMath Tier 4上获得48%的得分,是所有被评估AI系统中的最高分。
OpenAI 声称解决了80年前的数学难题——这次是真的
OpenAI 声称其新推理模型自主生成了一个原创数学证明,推翻了保罗·埃尔德什(Paul Erdős)一个80年未解的几何猜想。这标志着人工智能首次解决了一个数学领域核心的著名开放问题。
@rohanpaul_ai: Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明,但仅限于精心限制的范围内……
Google DeepMind 的新论文介绍了 AlphaProof Nexus,这是一个结合了 LLM 与 Lean 证明检查器的 AI 系统,用于在受限的数学领域中搜索形式化证明。该系统解决了来自 Erdős 和 OEIS 集合的几个未解问题,展示了一种新的分工:AI 提出候选证明,验证器确保正确性。