学习通过洞察进行非形式化定理证明的推理
摘要
本论文提出了DeepInsightTheorem,一个分层数据集和渐进式多阶段有监督微调训练策略,通过教导大语言模型识别和应用核心技术来改进其非形式化定理证明能力。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 通过洞察学习非形式定理证明的推理
来源: https://arxiv.org/abs/2604.16278
作者: Yunhe Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+Y), Hao Shi (https://arxiv.org/search/cs?searchtype=author&query=Shi,+H), Bowen Deng (https://arxiv.org/search/cs?searchtype=author&query=Deng,+B), Wei Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+W), Mengzhe Ruan (https://arxiv.org/search/cs?searchtype=author&query=Ruan,+M), Hanxu Hou (https://arxiv.org/search/cs?searchtype=author&query=Hou,+H), Zhongxiang Dai (https://arxiv.org/search/cs?searchtype=author&query=Dai,+Z), Siyang Gao (https://arxiv.org/search/cs?searchtype=author&query=Gao,+S), Chao Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+C), Shuang Qiu (https://arxiv.org/search/cs?searchtype=author&query=Qiu,+S), Linqi Song (https://arxiv.org/search/cs?searchtype=author&query=Song,+L)
查看 PDF (https://arxiv.org/pdf/2604.16278)
> 摘要:虽然大多数自动定理证明方法依赖于形式证明系统,但非形式定理证明能更好地与大型语言模型(LLM)在自然语言处理方面的优势相适应。在这项工作中,我们发现非形式定理证明的主要瓶颈在于缺乏洞察,即难以识别解决复杂问题所需的核心技术。为解决这一问题,我们提出了一个新型框架,旨在培养这一必要的推理能力,使 LLM 能够执行富有洞察的推理。我们提出了 $\mathtt{DeepInsightTheorem}$,这是一个分层数据集,通过显式提取核心技术和证明草图以及最终证明来结构化非形式证明。为了充分利用这个数据集,我们设计了一个渐进式多阶段监督微调(SFT)策略,模拟人类学习过程,引导模型从基础证明编写逐步发展到富有洞察的思维。我们在具有挑战性的数学基准上的实验表明,这种洞察感知生成策略的性能明显优于基准方法。这些结果表明,教导模型识别和应用核心技术可以显著改进其数学推理能力。
## 提交历史
来自: Yunhe Li [查看邮箱 (https://arxiv.org/show-email/b478e370/2604.16278)] **[v1]** 2026 年 4 月 17 日星期五 17:36:21 UTC (3,441 KB)相似文章
面向Lean定理证明的LLM反馈蒸馏
提出反馈蒸馏(Feedback Distillation),一种利用来自LLM的token级监督来改进复杂推理的训练方法,在Lean 4定理证明上进行了评估。该方法比GRPO更好地保持了多样性,且两种方法互补。
# 结合语义等价自博弈与形式化验证提升 LLM 代码推理能力
爱丁堡大学研究人员提出了一种利用 Liquid Haskell 进行形式化验证的自博弈框架,用于训练 LLMs 的语义等价推理能力,同步发布了 OpInstruct-HSx 数据集(28k 个程序),并在 EquiBench 上实现了 13.3 个百分点的准确率提升。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
大语言模型何时能在弱监督下学会推理?
# 论文页面 - 大语言模型何时能在弱监督下学会推理? 来源:[https://huggingface.co/papers/2604.18574](https://huggingface.co/papers/2604.18574) ## 摘要 研究表明,在弱监督下的推理任务中,模型泛化能力取决于奖励饱和动态和推理忠实度,而对显式轨迹进行监督微调对于成功适应至关重要。大语言模型通过[reinfor
学习细化隐藏状态以实现可靠的LLM推理
提出了ReLAR,一种强化引导的潜在细化框架,在解码前迭代更新LLM中的隐藏表示,与思维链方法相比,提高了推理可靠性和效率。