强化学习能否教会大型语言模型进行长程推理?表达力是关键
摘要
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
查看缓存全文
缓存时间: 2026/05/08 07:32
论文页 - RL 能否教会 LLMs 进行长程推理?表达能力是关键
来源:https://huggingface.co/papers/2605.06638
摘要
ScaleLogic 表明,强化学习训练计算量随推理深度呈幂律关系缩放,且随着多个推理任务中逻辑表达能力的增强,缩放指数单调增加。
强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)(RL)已被应用于提升大语言模型(LLM)的推理能力,但由于缺乏受控且可扩展的环境,关于训练如何随任务难度进行缩放的研究一直受到限制。我们提出了 ScaleLogic,这是一个合成逻辑推理(https://huggingface.co/papers?q=logical%20reasoning)框架,能够独立控制两个维度的难度:所需证明规划(https://huggingface.co/papers?q=proof%20planning)的深度(即,规划范围(https://huggingface.co/papers?q=horizon))以及底层逻辑的表达能力。我们提出的框架支持多种逻辑体系:从简单的仅蕴含逻辑(“如果-那么”)到更具表达能力的一阶推理(https://huggingface.co/papers?q=first-order%20reasoning),包括合取(“与”)、析取(“或”)、否定(“非”)和全称量化(“对于所有”)。使用该框架,我们发现 RL 训练计算量 T 与推理深度 D 呈幂律关系(T ∝ D^γ, R^2 > 0.99),且缩放指数(https://huggingface.co/papers?q=scaling%20exponent)γ 随逻辑表达能力的增强而单调增加,从 1.04 增至 2.60。在下游数学和通用推理基准测试中,与表达能力较低的训练设置相比,更具表达能力的训练设置不仅带来更大的性能提升(高达 +10.66 分),而且具有更高的计算效率迁移能力,这表明模型在什么上进行训练而不仅仅是训练多少,都会影响下游迁移效果。此外,我们还表明幂律关系在多种 RL 方法中均成立,基于课程的学习(https://huggingface.co/papers?q=curriculum-based%20training)显著提升了缩放效率。
查看 arXiv 页面(https://arxiv.org/abs/2605.06638)查看 PDF(https://arxiv.org/pdf/2605.06638)添加到集合(https://huggingface.co/login?next=%2Fpapers%2F2605.06638)
在您的智能体中获取此论文:
hf papers read 2605.06638
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.06638 以从此页面链接它。
引用此论文数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.06638 以从此页面链接它。
引用此论文的空间0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.06638 以从此页面链接它。
包含此论文的集合0
无集合包含此论文
将此论文添加到一个集合(https://huggingface.co/new-collection)以从此页面链接它。
相似文章
重新思考大语言模型推理中的强化学习:关键在于稀疏策略选择,而非能力学习
本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
大语言模型何时能在弱监督下学会推理?
# 论文页面 - 大语言模型何时能在弱监督下学会推理? 来源:[https://huggingface.co/papers/2604.18574](https://huggingface.co/papers/2604.18574) ## 摘要 研究表明,在弱监督下的推理任务中,模型泛化能力取决于奖励饱和动态和推理忠实度,而对显式轨迹进行监督微调对于成功适应至关重要。大语言模型通过[reinfor
@jiqizhixin:太棒了!关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…
一篇全面回顾推理型LLM强化学习现状的博文,涵盖从REINFORCE、PPO到GRPO乃至更多方法,并与InstructGPT、DeepSeek-R1等关键模型相联系。
ReFlect:用于复杂长周期大语言模型推理的有效包装系统
本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。