学习通过洞察进行非形式化定理证明的推理

arXiv cs.CL 论文

摘要

本论文提出了DeepInsightTheorem,一个分层数据集和渐进式多阶段有监督微调训练策略,通过教导大语言模型识别和应用核心技术来改进其非形式化定理证明能力。

arXiv:2604.16278v1 公告类型:跨领域 摘要:尽管大多数自动定理证明方法依赖于形式化证明系统,但非形式化定理证明能更好地与大语言模型(LLMs)在自然语言处理中的优势相结合。在这项工作中,我们将非形式化定理证明的主要瓶颈确定为缺乏洞察,即难以识别解决复杂问题所需的核心技术。为了解决这一问题,我们提出了一个新的框架,旨在培养这一基本推理技能,使LLMs能够进行有洞察的推理。我们提出了DeepInsightTheorem,这是一个分层数据集,通过显式提取核心技术和证明框架以及最终证明,对非形式化证明进行结构化。为了充分利用这个数据集,我们设计了一种渐进式多阶段有监督微调策略,模仿人类学习过程,引导模型从基础证明编写进阶到有洞察的思维。我们在具有挑战性的数学基准上的实验表明,这种洞察感知生成策略明显优于基线方法。这些结果表明,教导模型识别和应用核心技术能够显著提高其数学推理能力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:31

# 通过洞察学习非形式定理证明的推理

来源: https://arxiv.org/abs/2604.16278
作者: Yunhe Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+Y), Hao Shi (https://arxiv.org/search/cs?searchtype=author&query=Shi,+H), Bowen Deng (https://arxiv.org/search/cs?searchtype=author&query=Deng,+B), Wei Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+W), Mengzhe Ruan (https://arxiv.org/search/cs?searchtype=author&query=Ruan,+M), Hanxu Hou (https://arxiv.org/search/cs?searchtype=author&query=Hou,+H), Zhongxiang Dai (https://arxiv.org/search/cs?searchtype=author&query=Dai,+Z), Siyang Gao (https://arxiv.org/search/cs?searchtype=author&query=Gao,+S), Chao Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+C), Shuang Qiu (https://arxiv.org/search/cs?searchtype=author&query=Qiu,+S), Linqi Song (https://arxiv.org/search/cs?searchtype=author&query=Song,+L)

查看 PDF (https://arxiv.org/pdf/2604.16278)

> 摘要:虽然大多数自动定理证明方法依赖于形式证明系统,但非形式定理证明能更好地与大型语言模型(LLM)在自然语言处理方面的优势相适应。在这项工作中,我们发现非形式定理证明的主要瓶颈在于缺乏洞察,即难以识别解决复杂问题所需的核心技术。为解决这一问题,我们提出了一个新型框架,旨在培养这一必要的推理能力,使 LLM 能够执行富有洞察的推理。我们提出了 $\mathtt{DeepInsightTheorem}$,这是一个分层数据集,通过显式提取核心技术和证明草图以及最终证明来结构化非形式证明。为了充分利用这个数据集,我们设计了一个渐进式多阶段监督微调(SFT)策略,模拟人类学习过程,引导模型从基础证明编写逐步发展到富有洞察的思维。我们在具有挑战性的数学基准上的实验表明,这种洞察感知生成策略的性能明显优于基准方法。这些结果表明,教导模型识别和应用核心技术可以显著改进其数学推理能力。

## 提交历史

来自: Yunhe Li [查看邮箱 (https://arxiv.org/show-email/b478e370/2604.16278)] **[v1]** 2026 年 4 月 17 日星期五 17:36:21 UTC (3,441 KB)

相似文章

大语言模型何时能在弱监督下学会推理?

Hugging Face Daily Papers

# 论文页面 - 大语言模型何时能在弱监督下学会推理? 来源:[https://huggingface.co/papers/2604.18574](https://huggingface.co/papers/2604.18574) ## 摘要 研究表明,在弱监督下的推理任务中,模型泛化能力取决于奖励饱和动态和推理忠实度,而对显式轨迹进行监督微调对于成功适应至关重要。大语言模型通过[reinfor

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。