人类在高度严谨的数学测试中仍优于AI

Reddit r/singularity 2026/06/14 20:56 新闻

mathematics ai-benchmark ai-evaluation research-level first-proof artificial-intelligence

摘要

首次 Proof 测试评估了四种AI系统在新型研究级数学问题上的表现，其中最佳模型仅得6分（满分10分），表明当前AI在严谨推理方面仍落后于顶尖数学家。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/15 00:57

# 人类在这一高难度数学测试中击败AI 来源: https://www.nature.com/articles/d41586-026-01888-9?error=cookies_not_supported&code=6aecaf13-cfea-4818-93db-a18c0c44892a 抽象手写数学公式与绘图的3D渲染图（紫色和粉色位于黑色背景上），置于虚拟空间中。在第一轮证明数学挑战中，表现最佳的人工智能模型得分为6/10。图片来源: vitacopS/Getty 人工智能刚刚经历了其最严格的数学测试。结果已经出炉，参与测试的AI模型未能达到顶尖数学家的解题水平。这项测试是名为“First Proof”项目的一部分，旨在评估AI解决复杂数学问题的能力。测试向四个AI系统提出了十道研究级数学问题。一个由相关数学领域的匿名人类专家组成的评审团随后对模型的答案进行了评估。这是首个同时满足三个关键条件的同类测试：第一，题目属于研究级数学问题；第二，问题未出现在训练数据中；第三，由数学家正式评分。结果于6月10日在First Proof网站（https://1stproof.org/second-batch.html#results）上公布。这些发现紧随近期AI在解决数学问题方面的突破。例如上个月，位于加利福尼亚州旧金山的科技公司OpenAI打造的一个聊天机器人解决了已故数学家保罗·埃尔德什提出的一道80年数学难题（https://www.nature.com/articles/d41586-026-01651-0）。First Proof团队表示，未来版本的测试可以帮助研究人员判断AI模型对数学家的实用程度，例如在自主解决问题、验证证明或担任研究助理方面。 ## 证明这个 First Proof测试的一个重要创新在于，这些问题之前从未在已发表的文献或互联网上被提及——从而降低了模型仅仅重复训练中学到的信息的风险。相反，来自广泛数学领域的十位研究人员各自提供了一个问题，这些问题在其自身研究过程中已经解决但尚未发表。 First Proof曾在2月进行了一次试点测试（https://1stproof.org/first-batch.html），使用了另一批新颖问题。在那轮测试中，任何人都可以尝试用自己喜欢的AI系统来解决这些问题，许多团队也这样做了——但结果未经过First Proof团队的官方验证。也无法独立检查AI是否接受了人类帮助。 AI破解80年数学难题——研究者们震惊不已（https://www.nature.com/articles/d41586-026-01651-0）这次，First Proof自行进行了测试：团队要求模型以完全自主的方式解决问题，并让一组30位数学家审核答案。“组织者显然更仔细地考虑了第二批测试，使其更加可控和系统化，”数学家杰里米·阿维加德表示，他在宾夕法尼亚州匹兹堡的卡内基梅隆大学领导计算机辅助推理数学研究所。另一条规定是，参与模型必须公开可用。这意味着谷歌的Aletheia——一个专门为解决数学问题而设计的系统——以及Anthropic（位于加利福尼亚州旧金山）的Claude Mythos完整未发布版本无法使用。OpenAI是唯一参与的大型公司，其模型为ChatGPT 5.5 Pro。其他系统由三个学术团队提供：加州大学洛杉矶分校（UCLA）、新泽西州的普林斯顿大学以及苏黎世的瑞士联邦理工学院（ETH）。这三个团队均在现有聊天机器人（如ChatGPT、谷歌的Gemini和Anthropic的Claude公开版本）之上构建了“套件”。（套件是一种自动化系统，它向聊天机器人提问，然后由另一个聊天机器人检查答案，通常需要反复交互。） ## 数学结果 ETH团队的模型表现最佳，利用一个由三大主要聊天机器人组成的“顾问委员会”对ChatGPT的答案进行审核或改进，解决了十个问题中的六个。UCLA团队在ChatGPT上构建了套件，排名第二，其次是OpenAI团队（不带套件的ChatGPT）和普林斯顿团队（主要使用Gemini 3.1 Pro作为后端的套件）。

人类在高度严谨的数学测试中仍优于AI

相似文章

我们首次提交的 First Proof 证明

AI超越数学家

[Google DeepMind] AI联合数学家也在困难问题求解基准测试中取得了最先进的结果，包括在FrontierMath Tier 4上获得48%的得分，这是所有被评估AI系统的新最高分。

OpenAI 声称解决了80年前的数学难题——这次是真的

@rohanpaul_ai: Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明，但仅限于精心限制的范围内……

提交意见反馈