@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…

X AI KOLs Following 论文

摘要

谷歌新论文提出LEAP框架,一种智能体框架,使通用大语言模型能够通过规划证明并检查每一步来解决形式化数学问题,在Lean IMO基准测试上将性能从低于10%提升至70%,并解决了所有2025年的Putnam问题。

谷歌的另一篇精彩论文。 展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将通用大语言模型的性能从低于10%提升至70%。 当要求通用大语言模型一次性写出完整的正式证明时,它表现得很差;但当它进行规划、将任务拆分为更小的子目标、复用已有的引理,并从Lean的反馈中学习时,它的能力显著增强。 论文表明,问题不仅在于模型的数学能力,还在于它的使用方式——缺乏与验证器的结构化交互。 核心思想是,模型不会试图一次性写出一个巨大而完美的证明,因为这在处理长而复杂的问题时通常会失败。 相反,LEAP将证明存储为一个目标和子目标图,这样有用的引理可以被复用,而无需每次都重新发现。 作者在Putnam 2025和一个基于60道IMO风格问题构建的新Lean基准测试上测试了LEAP,在该测试中,常规的一次性证明写作表现非常差。 LEAP解决了全部12道Putnam 2025问题,并将通用大语言模型在Lean IMO基准测试上的性能从低于10%提升至70%。 ---- 链接 – arxiv.org/abs/2606.03303 标题:“LEAP:利用智能体框架为形式化数学注入强大动力的大语言模型”
查看原文
查看缓存全文

缓存时间: 2026/06/05 07:11

谷歌又一篇出色论文问世。

研究表明,通用大语言模型能够通过规划证明步骤并逐条核对,来解决形式化数学问题。该方法将通用大模型的表现从不足10%提升至70%。

当要求通用大模型一次性写出完整的形式化证明时,其表现极差;但一旦模型学会规划、将任务拆解为更小的断言、复用已有结论,并从Lean编译器的反馈中学习,其能力便会大幅增强。

该论文指出,问题并非仅在于模型的数学能力,更在于使用方式——缺少与验证器之间的结构化交互。

其核心理念是:模型不再尝试一次性写出一个庞大完美的证明——这类写法在长且复杂的问题上通常失败。

LEAP将证明存储为目标与子目标构成的图结构,这样有用的引理可以被重复使用,而无需每次重新发现。

作者在2025年普特南数学竞赛以及一个基于60道IMO风格问题构建的新Lean基准测试上测试了LEAP——在这些测试中,传统的一次性证明生成表现极差。

LEAP解答了全部12道2025年普特南问题,并将通用大模型在Lean IMO基准测试上的表现从不足10%提升至70%。


链接 – arxiv.org/abs/2606.03303

标题:《LEAP:利用智能体框架增强大语言模型在形式化数学中的能力》

相似文章

LEAP:利用代理框架增强LLMs在形式数学中的能力

arXiv cs.AI

LEAP是一种代理框架,使通用LLMs能够在Lean中实现形式定理证明的最新性能,解决了2025年普特南竞赛的全部12个问题,并在新基准(Lean-IMO-Bench)上将形式化证明率从低于10%提升至70%,超越了专门系统。

@FinanceYF5: Google新论文:让LLM解数学竞赛题,正确率从10%跳到70%。 【LEAP框架】不让模型一次写完整证明,而是把问题拆成目标树,边做边从Lean验证器的反馈里学,复用已证过的引理。 结果:Putnam 2025全部12题解出,IMO风…

X AI KOLs Timeline

Google新论文提出LEAP框架,将数学问题拆解为目标树,利用Lean验证器反馈进行学习,使LLM在数学竞赛题上的正确率从10%提升至70%,解决了Putnam 2025全部12题,并在IMO基准上超越专用金牌级系统。

@rohanpaul_ai: Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明,但仅限于精心限制的范围内……

X AI KOLs Following

Google DeepMind 的新论文介绍了 AlphaProof Nexus,这是一个结合了 LLM 与 Lean 证明检查器的 AI 系统,用于在受限的数学领域中搜索形式化证明。该系统解决了来自 Erdős 和 OEIS 集合的几个未解问题,展示了一种新的分工:AI 提出候选证明,验证器确保正确性。