强化学习能否教会大型语言模型进行长程推理?表达力是关键

Hugging Face Daily Papers 论文

摘要

本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。

强化学习(RL)已被应用于提升大型语言模型(LLM)的推理能力,但由于缺乏可控且可扩展的环境,针对训练规模如何随任务难度变化的系统性研究一直受阻。我们引入了 ScaleLogic,这是一个合成逻辑推理框架,能够独立控制两个难度维度:所需证明规划的深度(即时间跨度)以及底层逻辑的表达力。我们提出的框架支持广泛的逻辑体系:从简单的纯蕴含逻辑(“如果-那么”)到更具表达力的一阶推理,包括合取(“且”)、析取(“或”)、否定(“非”)以及全称量词(“对于所有”)。利用该框架,我们展示了 RL 训练计算资源消耗 T 与推理深度 D 之间遵循幂律关系(T ∝ D^γ,R² > 0.99),且缩放指数 γ 随逻辑表达力的增强从 1.04 单调增加至 2.60。在下游数学和通用推理基准测试中,与表达力较低的训练设置相比,表达力更高的训练设置不仅带来了更大的性能提升(最高达 +10.66 分),还实现了更高效的计算资源迁移,这表明塑造下游迁移效果的因素不仅是训练量的多少,更是模型所学的内容。此外,我们还展示了幂律关系在多种 RL 方法中均成立,而基于课程学习的训练显著提升了缩放效率。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:32

论文页 - RL 能否教会 LLMs 进行长程推理?表达能力是关键

来源:https://huggingface.co/papers/2605.06638

摘要

ScaleLogic 表明,强化学习训练计算量随推理深度呈幂律关系缩放,且随着多个推理任务中逻辑表达能力的增强,缩放指数单调增加。

强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)(RL)已被应用于提升大语言模型(LLM)的推理能力,但由于缺乏受控且可扩展的环境,关于训练如何随任务难度进行缩放的研究一直受到限制。我们提出了 ScaleLogic,这是一个合成逻辑推理(https://huggingface.co/papers?q=logical%20reasoning)框架,能够独立控制两个维度的难度:所需证明规划(https://huggingface.co/papers?q=proof%20planning)的深度(即,规划范围(https://huggingface.co/papers?q=horizon))以及底层逻辑的表达能力。我们提出的框架支持多种逻辑体系:从简单的仅蕴含逻辑(“如果-那么”)到更具表达能力的一阶推理(https://huggingface.co/papers?q=first-order%20reasoning),包括合取(“与”)、析取(“或”)、否定(“非”)和全称量化(“对于所有”)。使用该框架,我们发现 RL 训练计算量 T 与推理深度 D 呈幂律关系(T ∝ D^γ, R^2 > 0.99),且缩放指数(https://huggingface.co/papers?q=scaling%20exponent)γ 随逻辑表达能力的增强而单调增加,从 1.04 增至 2.60。在下游数学和通用推理基准测试中,与表达能力较低的训练设置相比,更具表达能力的训练设置不仅带来更大的性能提升(高达 +10.66 分),而且具有更高的计算效率迁移能力,这表明模型在什么上进行训练而不仅仅是训练多少,都会影响下游迁移效果。此外,我们还表明幂律关系在多种 RL 方法中均成立,基于课程的学习(https://huggingface.co/papers?q=curriculum-based%20training)显著提升了缩放效率。

查看 arXiv 页面(https://arxiv.org/abs/2605.06638)查看 PDF(https://arxiv.org/pdf/2605.06638)添加到集合(https://huggingface.co/login?next=%2Fpapers%2F2605.06638)

在您的智能体中获取此论文:

hf papers read 2605.06638

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.06638 以从此页面链接它。

引用此论文数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.06638 以从此页面链接它。

引用此论文的空间0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.06638 以从此页面链接它。

包含此论文的集合0

无集合包含此论文

将此论文添加到一个集合(https://huggingface.co/new-collection)以从此页面链接它。

相似文章

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。

大语言模型何时能在弱监督下学会推理?

Hugging Face Daily Papers

# 论文页面 - 大语言模型何时能在弱监督下学会推理? 来源:[https://huggingface.co/papers/2604.18574](https://huggingface.co/papers/2604.18574) ## 摘要 研究表明,在弱监督下的推理任务中,模型泛化能力取决于奖励饱和动态和推理忠实度,而对显式轨迹进行监督微调对于成功适应至关重要。大语言模型通过[reinfor