@rohanpaul_ai: Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明，但仅限于精心限制的范围内……

X AI KOLs Following 2026/05/22 22:37 论文

deepmind alphaproof-nexus formal-mathematics lean proof-search ai-research mathematical-ai

摘要

Google DeepMind 的新论文介绍了 AlphaProof Nexus，这是一个结合了 LLM 与 Lean 证明检查器的 AI 系统，用于在受限的数学领域中搜索形式化证明。该系统解决了来自 Erdős 和 OEIS 集合的几个未解问题，展示了一种新的分工：AI 提出候选证明，验证器确保正确性。

Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明，但仅限于精心限制的世界中。引人注目的结果并非该系统"像数学家一样思考"，而是它不断迫使自己的想法通过 Lean 进行验证，每一步都必须编译通过。问题在于，LLM 在数学上可能听起来很有说服力，但仍然会犯微小的错误，因此作者使用了 Lean——一个检查每一步逻辑的证明系统。他们的系统 AlphaProof Nexus 让 LLM 不断编辑形式化证明、读取编译器错误、重试，有时还会向更强的证明工具请求帮助解决较小的子问题。更强版本还维护了一个部分证明尝试的共享池，评估哪些看起来有希望，并利用这些尝试指导后续搜索。这改变了模型的作用：从有说服力的讲故事者变为候选生成器，当候选不正确时可以迅速被淘汰。验证器并非装饰性附加组件，而是使探索变得可行的机制。没有它，一个漂亮的证明草图可能隐藏一个错误的引理；有了它，模型必须将洞察转化为可执行的逻辑，否则就会明显失败。作者在实际未解决的数学问题上测试了该系统，包括 353 个形式化的 Erdős 问题和来自在线整数序列百科全书的 492 个开放猜想。主要结果是，最好的智能体解决了 9 个 Erdős 问题并证明了 44 个序列猜想，同时还帮助解决了优化、图论、代数几何和量子光学中的问题。失败与成功同样具有启示性，因为智能体有时将困难部分隐藏在辅助引理中，或者幻觉出一个已知结果——这正是形式化检查旨在暴露的错误类型。真正的转变并非完全的数学自主，而是一种新的分工：人类选择形式化问题，库定义领域，模型提出路径，而证明助手不为所动。 ---- "利用 AI 驱动形式化证明搜索推进数学研究" Paper Link – arxiv. org/abs/2605.22763

查看原文

查看缓存全文

缓存时间: 2026/05/23 08:01

Google DeepMind 的新论文表明，AI 现在能够搜索形式化数学证明，但仅限于精心约束的领域内。

其显著成果并不在于系统“像数学家一样思考”，而在于它不断迫使自己的思路通过 Lean 进行验证——每一步都必须通过编译。

问题在于，大语言模型在数学中可能听起来很有说服力，却仍会犯下细微错误。因此，作者使用了 Lean（一种可检查每个逻辑步骤的证明系统）。

他们的系统 AlphaProof Nexus 允许大语言模型持续编辑形式化证明，读取编译器错误，重试，并在必要时就较小的子问题向更强的证明工具求助。

更强版本还维护了一个共享的部分证明尝试池，评估哪些尝试看起来有希望，并用这些尝试来指导后续搜索。

这改变了模型的角色：从有说服力的叙事者变成候选方案的生成器——当这些方案出错时，可以迅速被淘汰。

验证器并非锦上添花的附加组件，而是使探索过程变得可容忍的关键机制。

没有它，一个漂亮的证明草稿可能隐藏着错误的引理；有了它，模型必须将洞察转化为可执行的逻辑，否则就会明显失败。

作者在真实未解决的数学问题上测试了该系统，包括 353 个形式化的 Erdős 问题和 492 个来自在线整数序列百科全书的开放猜想。

主要结果是，最优智能体解决了 9 个 Erdős 问题，证明了 44 个序列猜想，同时还协助处理了优化、图论、代数几何和量子光学领域的问题。

失败与成功同样具有启示意义，因为智能体有时会将困难部分埋入辅助引理，或幻觉出一个已知结果——这正是形式化检查旨在揭露的那类错误。

真正的转变并非完全的数学自主性，而是一种新的分工：人类选择形式化问题，库定义领域，模型提出路径，而证明助手不为所动。

“借助人工智能驱动的形式化证明搜索推进数学研究”

论文链接 – arxiv.org/abs/2605.22763

相似文章

Google DeepMind's AlphaProof Nexus 解决了几十年的数学难题，仅花费几百美元（7分钟阅读）

TLDR AI

Google DeepMind's AlphaProof Nexus 结合了LLM驱动的证明生成与使用Lean的机器验证，解决了353个开放Erdős问题中的9个，其中两个已经开放了56年，每个问题仅花费几百美元。

@FinanceYF5: Google DeepMind发布AlphaProof Nexus论文： AI agent在353个开放数学问题中自主解决了9个Erdős难题，包括两个56年未解问题，并证明了44个OEIS猜想。每道题推理成本仅数百美元。

X AI KOLs Following

Google DeepMind 发布 AlphaProof Nexus 论文，AI agent 在 353 个开放数学问题中自主解决了 9 个 Erdős 难题（包括两个 56 年未解问题），并证明了 44 个 OEIS 猜想，每道题推理成本仅数百美元。

@rohanpaul_ai: Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明，但仅限于精心限制的范围内……

相似文章

Google DeepMind's AlphaProof Nexus 解决了几十年的数学难题，仅花费几百美元（7分钟阅读）

@FinanceYF5: Google DeepMind发布AlphaProof Nexus论文： AI agent在353个开放数学问题中自主解决了9个Erdős难题，包括两个56年未解问题，并证明了44个OEIS猜想。每道题推理成本仅数百美元。

@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…

@logic_int: 新消息：Aleph Prover 已形式化 OpenAI 对保罗·埃尔德什平面单位问题的反证。我们正在发布形式化…

我们首次提交的 First Proof 证明

提交意见反馈

相似文章

Google DeepMind's AlphaProof Nexus 解决了几十年的数学难题，仅花费几百美元（7分钟阅读）

@FinanceYF5: Google DeepMind发布AlphaProof Nexus论文： AI agent在353个开放数学问题中自主解决了9个Erdős难题，包括两个56年未解问题，并证明了44个OEIS猜想。 每道题推理成本仅数百美元。

@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…

@logic_int: 新消息：Aleph Prover 已形式化 OpenAI 对保罗·埃尔德什平面单位问题的反证。我们正在发布形式化…

我们首次提交的 First Proof 证明

提交意见反馈

@FinanceYF5: Google DeepMind发布AlphaProof Nexus论文： AI agent在353个开放数学问题中自主解决了9个Erdős难题，包括两个56年未解问题，并证明了44个OEIS猜想。每道题推理成本仅数百美元。