@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…
摘要
谷歌新论文提出LEAP框架,一种智能体框架,使通用大语言模型能够通过规划证明并检查每一步来解决形式化数学问题,在Lean IMO基准测试上将性能从低于10%提升至70%,并解决了所有2025年的Putnam问题。
查看缓存全文
缓存时间: 2026/06/05 07:11
谷歌又一篇出色论文问世。
研究表明,通用大语言模型能够通过规划证明步骤并逐条核对,来解决形式化数学问题。该方法将通用大模型的表现从不足10%提升至70%。
当要求通用大模型一次性写出完整的形式化证明时,其表现极差;但一旦模型学会规划、将任务拆解为更小的断言、复用已有结论,并从Lean编译器的反馈中学习,其能力便会大幅增强。
该论文指出,问题并非仅在于模型的数学能力,更在于使用方式——缺少与验证器之间的结构化交互。
其核心理念是:模型不再尝试一次性写出一个庞大完美的证明——这类写法在长且复杂的问题上通常失败。
LEAP将证明存储为目标与子目标构成的图结构,这样有用的引理可以被重复使用,而无需每次重新发现。
作者在2025年普特南数学竞赛以及一个基于60道IMO风格问题构建的新Lean基准测试上测试了LEAP——在这些测试中,传统的一次性证明生成表现极差。
LEAP解答了全部12道2025年普特南问题,并将通用大模型在Lean IMO基准测试上的表现从不足10%提升至70%。
链接 – arxiv.org/abs/2606.03303
标题:《LEAP:利用智能体框架增强大语言模型在形式化数学中的能力》
相似文章
LEAP:利用代理框架增强LLMs在形式数学中的能力
LEAP是一种代理框架,使通用LLMs能够在Lean中实现形式定理证明的最新性能,解决了2025年普特南竞赛的全部12个问题,并在新基准(Lean-IMO-Bench)上将形式化证明率从低于10%提升至70%,超越了专门系统。
@FinanceYF5: Google新论文:让LLM解数学竞赛题,正确率从10%跳到70%。 【LEAP框架】不让模型一次写完整证明,而是把问题拆成目标树,边做边从Lean验证器的反馈里学,复用已证过的引理。 结果:Putnam 2025全部12题解出,IMO风…
Google新论文提出LEAP框架,将数学问题拆解为目标树,利用Lean验证器反馈进行学习,使LLM在数学竞赛题上的正确率从10%提升至70%,解决了Putnam 2025全部12题,并在IMO基准上超越专用金牌级系统。
@rohanpaul_ai: Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明,但仅限于精心限制的范围内……
Google DeepMind 的新论文介绍了 AlphaProof Nexus,这是一个结合了 LLM 与 Lean 证明检查器的 AI 系统,用于在受限的数学领域中搜索形式化证明。该系统解决了来自 Erdős 和 OEIS 集合的几个未解问题,展示了一种新的分工:AI 提出候选证明,验证器确保正确性。
@Raytar: 一位谷歌研究员走进麻省理工,通过在提示中添加七个词让AI正确做数学。这七个词…
一个帖子强调了两个独立的见解:一位谷歌研究员发现,在提示中添加‘你是麻省理工数学家’可以修复大语言模型中的数学错误,而Alex Albert解释了Anthropic如何训练Claude的个性。这两个资源都是免费的,深入探讨了大语言模型的实际工作原理。
@logic_int: 新消息:Aleph Prover 已形式化 OpenAI 对保罗·埃尔德什平面单位问题的反证。我们正在发布形式化…
Aleph Prover 已在 Lean 4 中形式化了 OpenAI 对保罗·埃尔德什平面单位问题的反证,并将其作为开源发布以供独立验证,展示了人工智能在加速数学研究中的作用,同时提供了可验证的证明数据。