我们首次提交的 First Proof 证明

OpenAI Blog 2026/02/20 14:30 新闻

摘要

OpenAI 为 First Proof 挑战提交了证明尝试，该挑战是一项研究级别的数学竞赛，旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题（共十个），展示了其在持续推理和严谨数学思维方面的显著进展。

我们分享了 AI 模型对 First Proof 数学挑战的证明尝试，该挑战旨在测试其对专家级问题的研究级推理能力。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:52

# 我们的首次Proof提交来源：https://openai.com/index/first-proof-submissions/ OpenAI我们在此分享针对“First Proof”数学挑战的证明尝试——该挑战旨在测试AI能否在特定领域问题上生成可核验的证明。我们在一款内部模型上运行了全部10道First Proof(opens in a new window) (https://1stproof.org/)问题。这是一项研究级别的数学挑战，旨在测试AI系统能否在专业领域生成正确且可核验的证明尝试。与简答题或竞赛类数学不同，这些问题需要构建专业领域的端到端论证，且在没有专家评审的情况下很难判定其正确性。First Proof问题的作者均为各自领域的顶尖专家，其中至少有两道问题在作者找到解法前已悬而未决多年。一个与这些主题领域有大量交集的高校院系，或许能在一周内解决其中许多问题。我们于太平洋时间2026年2月14日星期六凌晨0点分享了(opens in a new window) (https://x.com/merettm/status/2022517085193277874?s=20)我们的证明尝试。根据专家反馈，我们认为模型的至少五次证明尝试（问题4、5、6、9和10）有很大可能是正确的，其余几次仍在评审中。我们最初认为问题2的尝试很可能是正确的。但根据First Proof官方评论及进一步的社区分析，我们现在认为它是错误的。我们感谢大家的参与，并期待后续的评审。我们的完整证明尝试可在此处(opens in a new window) (https://cdn.openai.com/pdf/26177a73-3b75-4828-8c91-e8f1cf27aaa0/oai_first_proof.pdf)找到。预印本包含全部十次证明尝试，以及新增的附录，其中提供了提示模式与示例，旨在模拟我们在过程中与模型的手动交互方式。我们认为，新颖的前沿研究或许是对下一代AI模型能力最重要的评估方式。基准测试固然有用，但它们可能遗漏研究中最困难的部分：维持长时间推理链条、选择合适的抽象层级、处理问题陈述中的歧义，以及生成能够经受专家审视的论证。像First Proof这样的前沿挑战，有助于我们在那些验证正确性并非易事、失败模式极具信息量的环境中，对这些能力进行压力测试。 > “我们目前正在训练一个新模型，其首要目标是提升思考的严谨性，力求模型能够持续思考数小时，并对其结论保持高度自信。当First Proof问题公布时，它看起来就像是完美的试验场，所以我周末进行了尝试。它已经能够解决其中两个问题（#9和#10）。随着训练的进行，它变得越来越强大，最终——据我们估算——至少又解决了三个。尤其令人欣慰的是，它先解决了#6，两天后又解决了#4，因为这些问题来自我们许多人都熟悉的领域。看着一个模型一天天切实变聪明，真是难以置信。” > > —— James R. Lee（OpenAI研究员，推理方向）我们在有限的人工监督下运行了该模型。在训练过程中向模型的不同版本提供提示时，我们有时会建议重试那些在早期尝试中看起来有效的策略。对于某些尝试，我们在收到专家反馈后要求模型扩展或澄清部分证明，以便更易于验证推理过程。我们还促成了该模型与ChatGPT之间就验证、格式和风格进行的往返交流。对于部分问题，我们呈现了若干尝试中最佳的一个，由人工判断选出。这是一次快速冲刺，我们的流程并不像在严格受控的评估中那样理想。我们期待与First Proof组织者就未来迭代中更严格的实验和评估框架进行讨论。这项工作建立在先前前沿推理模型在数学和科学领域成果的基础上。2025年7月，我们以通用推理模型在国际数学奥林匹克竞赛中达到了金牌水平(opens in a new window) (https://x.com/OpenAI/status/1946594928945148246?utm_source=chatgpt.com)（35/42分）。2025年11月，我们分享了“用GPT-5加速科学的早期实验 (https://openai.com/index/accelerating-science-gpt-5/)”，这是一组案例研究，展示了GPT-5如何帮助研究人员在数学、物理学、生物学等领域取得具体进展，以及我们观察到的局限性。最近，我们报告了一项物理学合作 (https://openai.com/index/new-result-theoretical-physics/)，其中GPT-5.2提出了一个胶子振幅公式的候选表达式，随后由内部模型进行了形式化证明，并得到了作者的验证。我们期待与社区更深入地探讨如何评估研究级推理能力，包括针对这些尝试的专家反馈，并很高兴能在未来的公开模型中提供这些新能力。

相似文章

解决（部分）形式化数学奥林匹克问题

OpenAI Blog

# 解决（部分）形式化数学奥林匹克问题来源：[https://openai.com/index/formal-math/](https://openai.com/index/formal-math/) 我们在 [miniF2F](https://arxiv.org/abs/2109.00110) 基准测试上实现了新的最先进成果（41.2% vs 29.3%），这是一个具有挑战性的高中奥林匹克问题集合。我们的方法称为*语句课程学习*，包括手动收集一组难度级别不同的陈述（不含证明）

OpenAI o1 发布

OpenAI Blog

OpenAI 发布了 o1，一系列新的推理导向型 AI 模型，在科学、编码和数学等复杂任务上表现优于前代模型。预览版模型在国际数学奥林匹克竞赛问题上的解决率达到 83%，而 GPT-4o 仅为 13%，在竞技编程中达到第 89 个百分位。

用于自动定理证明的生成语言建模

OpenAI Blog

# 用于自动定理证明的生成语言建模来源: [https://openai.com/index/generative-language-modeling-for-automated-theorem-proving/](https://openai.com/index/generative-language-modeling-for-automated-theorem-proving/) OpenAI## 摘要我们探索了基于 Transformer 的语言模型在自动定理证明中的应用。这项工作的动力来自于一种可能性，即自动定理证明器与人类相比的一个主要局限——原始内容的生成

解决数学应用题

OpenAI Blog

OpenAI 训练了一个使用验证器的系统来解决小学数学应用题，准确率达到儿童水平的 90%，性能几乎是微调后的 GPT-3 的两倍。该方法通过训练验证器来评估候选解决方案并选择最佳方案，解决了语言模型在多步推理中的弱点。

用 OpenAI o1 回答量子物理问题

OpenAI Blog

OpenAI 发布了 o1 新型 AI 模型系列，该模型能在响应前花费更多时间进行推理，在处理复杂量子物理问题以及解决科学、编码和数学中的难题方面展现出显著能力。

相似文章

解决（部分）形式化数学奥林匹克问题

OpenAI o1 发布

用于自动定理证明的生成语言建模

解决数学应用题

用 OpenAI o1 回答量子物理问题

提交意见反馈