# 我们的首次Proof提交
来源:https://openai.com/index/first-proof-submissions/
OpenAI我们在此分享针对“First Proof”数学挑战的证明尝试——该挑战旨在测试AI能否在特定领域问题上生成可核验的证明。
我们在一款内部模型上运行了全部10道First Proof(opens in a new window) (https://1stproof.org/)问题。这是一项研究级别的数学挑战,旨在测试AI系统能否在专业领域生成正确且可核验的证明尝试。与简答题或竞赛类数学不同,这些问题需要构建专业领域的端到端论证,且在没有专家评审的情况下很难判定其正确性。First Proof问题的作者均为各自领域的顶尖专家,其中至少有两道问题在作者找到解法前已悬而未决多年。一个与这些主题领域有大量交集的高校院系,或许能在一周内解决其中许多问题。
我们于太平洋时间2026年2月14日星期六凌晨0点分享了(opens in a new window) (https://x.com/merettm/status/2022517085193277874?s=20)我们的证明尝试。根据专家反馈,我们认为模型的至少五次证明尝试(问题4、5、6、9和10)有很大可能是正确的,其余几次仍在评审中。我们最初认为问题2的尝试很可能是正确的。但根据First Proof官方评论及进一步的社区分析,我们现在认为它是错误的。我们感谢大家的参与,并期待后续的评审。我们的完整证明尝试可在此处(opens in a new window) (https://cdn.openai.com/pdf/26177a73-3b75-4828-8c91-e8f1cf27aaa0/oai_first_proof.pdf)找到。预印本包含全部十次证明尝试,以及新增的附录,其中提供了提示模式与示例,旨在模拟我们在过程中与模型的手动交互方式。
我们认为,新颖的前沿研究或许是对下一代AI模型能力最重要的评估方式。基准测试固然有用,但它们可能遗漏研究中最困难的部分:维持长时间推理链条、选择合适的抽象层级、处理问题陈述中的歧义,以及生成能够经受专家审视的论证。像First Proof这样的前沿挑战,有助于我们在那些验证正确性并非易事、失败模式极具信息量的环境中,对这些能力进行压力测试。
> “我们目前正在训练一个新模型,其首要目标是提升思考的严谨性,力求模型能够持续思考数小时,并对其结论保持高度自信。当First Proof问题公布时,它看起来就像是完美的试验场,所以我周末进行了尝试。它已经能够解决其中两个问题(#9和#10)。随着训练的进行,它变得越来越强大,最终——据我们估算——至少又解决了三个。尤其令人欣慰的是,它先解决了#6,两天后又解决了#4,因为这些问题来自我们许多人都熟悉的领域。看着一个模型一天天切实变聪明,真是难以置信。”
>
> —— James R. Lee(OpenAI研究员,推理方向)
我们在有限的人工监督下运行了该模型。在训练过程中向模型的不同版本提供提示时,我们有时会建议重试那些在早期尝试中看起来有效的策略。对于某些尝试,我们在收到专家反馈后要求模型扩展或澄清部分证明,以便更易于验证推理过程。我们还促成了该模型与ChatGPT之间就验证、格式和风格进行的往返交流。对于部分问题,我们呈现了若干尝试中最佳的一个,由人工判断选出。这是一次快速冲刺,我们的流程并不像在严格受控的评估中那样理想。我们期待与First Proof组织者就未来迭代中更严格的实验和评估框架进行讨论。
这项工作建立在先前前沿推理模型在数学和科学领域成果的基础上。2025年7月,我们以通用推理模型在国际数学奥林匹克竞赛中达到了金牌水平(opens in a new window) (https://x.com/OpenAI/status/1946594928945148246?utm_source=chatgpt.com)(35/42分)。2025年11月,我们分享了“用GPT-5加速科学的早期实验 (https://openai.com/index/accelerating-science-gpt-5/)”,这是一组案例研究,展示了GPT-5如何帮助研究人员在数学、物理学、生物学等领域取得具体进展,以及我们观察到的局限性。最近,我们报告了一项物理学合作 (https://openai.com/index/new-result-theoretical-physics/),其中GPT-5.2提出了一个胶子振幅公式的候选表达式,随后由内部模型进行了形式化证明,并得到了作者的验证。
我们期待与社区更深入地探讨如何评估研究级推理能力,包括针对这些尝试的专家反馈,并很高兴能在未来的公开模型中提供这些新能力。