@rohanpaul_ai: Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明,但仅限于精心限制的范围内……
摘要
Google DeepMind 的新论文介绍了 AlphaProof Nexus,这是一个结合了 LLM 与 Lean 证明检查器的 AI 系统,用于在受限的数学领域中搜索形式化证明。该系统解决了来自 Erdős 和 OEIS 集合的几个未解问题,展示了一种新的分工:AI 提出候选证明,验证器确保正确性。
查看缓存全文
缓存时间: 2026/05/23 08:01
Google DeepMind 的新论文表明,AI 现在能够搜索形式化数学证明,但仅限于精心约束的领域内。
其显著成果并不在于系统“像数学家一样思考”,而在于它不断迫使自己的思路通过 Lean 进行验证——每一步都必须通过编译。
问题在于,大语言模型在数学中可能听起来很有说服力,却仍会犯下细微错误。因此,作者使用了 Lean(一种可检查每个逻辑步骤的证明系统)。
他们的系统 AlphaProof Nexus 允许大语言模型持续编辑形式化证明,读取编译器错误,重试,并在必要时就较小的子问题向更强的证明工具求助。
更强版本还维护了一个共享的部分证明尝试池,评估哪些尝试看起来有希望,并用这些尝试来指导后续搜索。
这改变了模型的角色:从有说服力的叙事者变成候选方案的生成器——当这些方案出错时,可以迅速被淘汰。
验证器并非锦上添花的附加组件,而是使探索过程变得可容忍的关键机制。
没有它,一个漂亮的证明草稿可能隐藏着错误的引理;有了它,模型必须将洞察转化为可执行的逻辑,否则就会明显失败。
作者在真实未解决的数学问题上测试了该系统,包括 353 个形式化的 Erdős 问题和 492 个来自在线整数序列百科全书的开放猜想。
主要结果是,最优智能体解决了 9 个 Erdős 问题,证明了 44 个序列猜想,同时还协助处理了优化、图论、代数几何和量子光学领域的问题。
失败与成功同样具有启示意义,因为智能体有时会将困难部分埋入辅助引理,或幻觉出一个已知结果——这正是形式化检查旨在揭露的那类错误。
真正的转变并非完全的数学自主性,而是一种新的分工:人类选择形式化问题,库定义领域,模型提出路径,而证明助手不为所动。
“借助人工智能驱动的形式化证明搜索推进数学研究”
论文链接 – arxiv.org/abs/2605.22763
相似文章
Google DeepMind's AlphaProof Nexus 解决了几十年的数学难题,仅花费几百美元(7分钟阅读)
Google DeepMind's AlphaProof Nexus 结合了LLM驱动的证明生成与使用Lean的机器验证,解决了353个开放Erdős问题中的9个,其中两个已经开放了56年,每个问题仅花费几百美元。
@FinanceYF5: Google DeepMind发布AlphaProof Nexus论文: AI agent在353个开放数学问题中自主解决了9个Erdős难题,包括两个56年未解问题,并证明了44个OEIS猜想。 每道题推理成本仅数百美元。
Google DeepMind 发布 AlphaProof Nexus 论文,AI agent 在 353 个开放数学问题中自主解决了 9 个 Erdős 难题(包括两个 56 年未解问题),并证明了 44 个 OEIS 猜想,每道题推理成本仅数百美元。
@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…
谷歌新论文提出LEAP框架,一种智能体框架,使通用大语言模型能够通过规划证明并检查每一步来解决形式化数学问题,在Lean IMO基准测试上将性能从低于10%提升至70%,并解决了所有2025年的Putnam问题。
@logic_int: 新消息:Aleph Prover 已形式化 OpenAI 对保罗·埃尔德什平面单位问题的反证。我们正在发布形式化…
Aleph Prover 已在 Lean 4 中形式化了 OpenAI 对保罗·埃尔德什平面单位问题的反证,并将其作为开源发布以供独立验证,展示了人工智能在加速数学研究中的作用,同时提供了可验证的证明数据。
我们首次提交的 First Proof 证明
OpenAI 为 First Proof 挑战提交了证明尝试,该挑战是一项研究级别的数学竞赛,旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题(共十个),展示了其在持续推理和严谨数学思维方面的显著进展。