@rohanpaul_ai: Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明,但仅限于精心限制的范围内……

X AI KOLs Following 论文

摘要

Google DeepMind 的新论文介绍了 AlphaProof Nexus,这是一个结合了 LLM 与 Lean 证明检查器的 AI 系统,用于在受限的数学领域中搜索形式化证明。该系统解决了来自 Erdős 和 OEIS 集合的几个未解问题,展示了一种新的分工:AI 提出候选证明,验证器确保正确性。

Google DeepMind 的新论文。 表明人工智能现在可以搜索形式化数学证明,但仅限于精心限制的世界中。 引人注目的结果并非该系统"像数学家一样思考",而是它不断迫使自己的想法通过 Lean 进行验证,每一步都必须编译通过。 问题在于,LLM 在数学上可能听起来很有说服力,但仍然会犯微小的错误,因此作者使用了 Lean——一个检查每一步逻辑的证明系统。 他们的系统 AlphaProof Nexus 让 LLM 不断编辑形式化证明、读取编译器错误、重试,有时还会向更强的证明工具请求帮助解决较小的子问题。 更强版本还维护了一个部分证明尝试的共享池,评估哪些看起来有希望,并利用这些尝试指导后续搜索。 这改变了模型的作用:从有说服力的讲故事者变为候选生成器,当候选不正确时可以迅速被淘汰。 验证器并非装饰性附加组件,而是使探索变得可行的机制。 没有它,一个漂亮的证明草图可能隐藏一个错误的引理;有了它,模型必须将洞察转化为可执行的逻辑,否则就会明显失败。 作者在实际未解决的数学问题上测试了该系统,包括 353 个形式化的 Erdős 问题和来自在线整数序列百科全书的 492 个开放猜想。 主要结果是,最好的智能体解决了 9 个 Erdős 问题并证明了 44 个序列猜想,同时还帮助解决了优化、图论、代数几何和量子光学中的问题。 失败与成功同样具有启示性,因为智能体有时将困难部分隐藏在辅助引理中,或者幻觉出一个已知结果——这正是形式化检查旨在暴露的错误类型。 真正的转变并非完全的数学自主,而是一种新的分工:人类选择形式化问题,库定义领域,模型提出路径,而证明助手不为所动。 ---- "利用 AI 驱动形式化证明搜索推进数学研究" Paper Link – arxiv. org/abs/2605.22763
查看原文
查看缓存全文

缓存时间: 2026/05/23 08:01

Google DeepMind 的新论文表明,AI 现在能够搜索形式化数学证明,但仅限于精心约束的领域内。

其显著成果并不在于系统“像数学家一样思考”,而在于它不断迫使自己的思路通过 Lean 进行验证——每一步都必须通过编译。

问题在于,大语言模型在数学中可能听起来很有说服力,却仍会犯下细微错误。因此,作者使用了 Lean(一种可检查每个逻辑步骤的证明系统)。

他们的系统 AlphaProof Nexus 允许大语言模型持续编辑形式化证明,读取编译器错误,重试,并在必要时就较小的子问题向更强的证明工具求助。

更强版本还维护了一个共享的部分证明尝试池,评估哪些尝试看起来有希望,并用这些尝试来指导后续搜索。

这改变了模型的角色:从有说服力的叙事者变成候选方案的生成器——当这些方案出错时,可以迅速被淘汰。

验证器并非锦上添花的附加组件,而是使探索过程变得可容忍的关键机制。

没有它,一个漂亮的证明草稿可能隐藏着错误的引理;有了它,模型必须将洞察转化为可执行的逻辑,否则就会明显失败。

作者在真实未解决的数学问题上测试了该系统,包括 353 个形式化的 Erdős 问题和 492 个来自在线整数序列百科全书的开放猜想。

主要结果是,最优智能体解决了 9 个 Erdős 问题,证明了 44 个序列猜想,同时还协助处理了优化、图论、代数几何和量子光学领域的问题。

失败与成功同样具有启示意义,因为智能体有时会将困难部分埋入辅助引理,或幻觉出一个已知结果——这正是形式化检查旨在揭露的那类错误。

真正的转变并非完全的数学自主性,而是一种新的分工:人类选择形式化问题,库定义领域,模型提出路径,而证明助手不为所动。


“借助人工智能驱动的形式化证明搜索推进数学研究”

论文链接 – arxiv.org/abs/2605.22763

相似文章

我们首次提交的 First Proof 证明

OpenAI Blog

OpenAI 为 First Proof 挑战提交了证明尝试,该挑战是一项研究级别的数学竞赛,旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题(共十个),展示了其在持续推理和严谨数学思维方面的显著进展。