Lean Refactor:基于智能体策略搜索的多目标可控证明优化

Hugging Face Daily Papers 论文

摘要

Lean Refactor 提出了一种检索增强的智能体框架,用于对 Lean 证明进行多目标、可控且鲁棒的版本重构,实现了显著的压缩和编译时间减少。

我们提出了 Lean Refactor,一个即插即用的检索增强智能体框架,用于对 Lean 证明进行多目标、可控且对版本鲁棒的重构。LLM 生成的证明以正确但冗长且在库版本间脆弱而闻名,但现有的重构工作忽略了三个实际挑战:1) Lean 重构本质上是多目标的(证明长度、编译成本和版本兼容性常常相互矛盾);2) Lean 仓库的兼容性脆弱,而 LLM 版本不了解 Lean/Mathlib 版本;3) 基于训练管道的方案需要随着每个新 LLM 版本反复微调,既无法适应模型迭代,也无法跟上 Lean 的发布周期。Lean Refactor 通过从精心策划的多目标重构策略数据库中检索,来引导冻结的智能体 LLM,每条策略都附有丰富的元数据,如支持的 Lean/Mathlib 版本和预期的编译成本降低。实验表明,在竞赛基准上实现了超过 70% 的 token 级压缩,在研究仓库上超过 20%,编译时间减少高达 60%,优于之前的工作和 Claude Code。版本过滤检索进一步提高了目标 Lean 版本上的压缩效果,重构后的 miniF2F 证明在零样本版本迁移到未来 Lean 版本时表现出比未重构版本更强的能力。
查看原文
查看缓存全文

缓存时间: 2026/05/22 14:20

论文页面 - Lean Refactor:基于智能策略搜索的多目标可控证明优化

来源:https://huggingface.co/papers/2605.20244

摘要

Lean Refactor 提出了一种检索增强的代理框架,通过精心构建的策略数据库和版本过滤检索,改善了 Lean 证明重构在多目标优化、版本兼容性和可扩展性方面的挑战。

我们提出了 Lean Refactor,一个即插即用的检索增强代理框架(https://huggingface.co/papers?q=retrieval-augmented%20agentic%20framework),用于对 Lean 证明(https://huggingface.co/papers?q=Lean%20proofs)进行多目标、可控且版本鲁棒的重构(https://huggingface.co/papers?q=version-robust%20refactoring)。LLM 生成的证明通常正确但冗长,且跨库版本时脆弱,然而现有重构工作忽略了三个实际挑战:1)Lean 重构本身即多目标(证明长度、编译开销和版本兼容性往往相互矛盾);2)Lean 仓库具有脆弱的兼容性,而 LLM 版本发布不感知 Lean/Mathlib 版本(https://huggingface.co/papers?q=Mathlib%20versions);3)基于训练流程的管道每次发布新 LLM 都需要重新微调,既不能随模型更换扩展,也无法跟上 Lean 的发布周期。Lean Refactor 利用从精选的多目标重构策略数据库中检索的信息来引导一个冻结的代理 LLM,这些策略每条都带有丰富的元数据,例如支持的 Lean/Mathlib 版本(https://huggingface.co/papers?q=Mathlib%20versions)和预期的编译开销缩减。实验表明,在竞赛基准上实现了超过 70% 的令牌级压缩(https://huggingface.co/papers?q=token-level%20compression),在研究仓库上超过 20%,编译时间最高减少 60%,优于先前工作和 Claude Code。版本过滤检索进一步提升了目标 Lean 版本的压缩效果,并且重构后的 miniF2F 证明在未来的 Lean 发布版本上表现出比未重构版本更强的零样本版本迁移(https://huggingface.co/papers?q=zero-shot%20version%20transfer)能力。

查看 arXiv 页面(https://arxiv.org/abs/2605.20244)查看 PDF(https://arxiv.org/pdf/2605.20244)项目页面(https://arxiv.org/abs/2605.20244)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.20244)

在你的代理中获取此论文:

hf papers read 2605.20244

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20244 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20244 即可从此页面链接。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20244 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

发现与证明:Lean 4中困难模式自动定理证明的开源智能体框架

arXiv cs.CL

本文介绍了 Discover and Prove (DAP),一个用于 Lean 4 自动定理证明的开源智能体框架,针对"困难模式"问题进行优化——即在构造形式化证明前必须独立发现答案。该工作发布了新的困难模式基准变体,达到最先进的结果,同时揭示了 LLM 答案准确率(>80%)与形式化证明器成功率(<10%)之间的巨大差距。

OProver:一个统一的代理式形式定理证明框架

Hugging Face Daily Papers

OProver是一个统一的框架,用于Lean 4中的代理式形式定理证明,通过使用经过验证的证明和编译器反馈进行训练,迭代地改进证明生成,在多个基准测试中取得了最先进的结果。

面向高效可控LLM推理的代理式思维链引导

Hugging Face Daily Papers

ACTS(代理式思维链引导)将LLM推理控制形式化为马尔可夫决策过程,其中控制器代理在推理过程中使用推理策略和引导短语自适应地引导冻结的推理器。该方法在显著节省token的同时实现了与完全思考模型相当的准确率,支持可控的准确率-效率权衡。

R-APS:通过反思性对抗帕累托搜索实现约束设计的组合推理与上下文元学习

arXiv cs.AI

R-APS(反思性对抗帕累托搜索)是一种面向约束设计任务的新方法,通过跨三个时间尺度的推理模式分解,解决了基于LLM的智能体系统中的三类结构性缺陷——错误传播、鲁棒性评估与知识失效,且无需微调。在平面机构综合任务上的评估结果表明,与基线方法相比,R-APS实现了3.5倍更紧的鲁棒性证书、46%更快的首次准入迭代速度,以及2.1倍的Chamfer距离缩减。