STRIDE：面向LLM推理的可学习逐步语言反馈

arXiv cs.LG 2026/05/20 04:00 论文

摘要

STRIDE提出了一种训练框架，使用可学习的逐步语言反馈而非标量奖励来提升LLM推理能力，在多种基准测试上取得了最先进的结果。

arXiv:2605.18851v1 公告类型：新摘要：强化学习（RL）的最新进展凸显了其在激励大型语言模型（LLMs）推理能力方面的潜力。然而，现有的步骤级方法受限于昂贵的标注，限制了领域覆盖范围，而标量分数进一步造成了信息瓶颈，提供的语义带宽不足以改进中间决策。替代的语言批评方法依赖于固定或外部批评者，提供了更丰富的文本反馈，但缺乏持续策略改进所需的可扩展性。在这项工作中，我们提出了语言驱动的逐步轨迹重定向，称为STRIDE，这是一种新颖的训练框架，将过程监督从标量奖励转变为可学习的逐步语言反馈。具体来说，我们仅使用基于结果的奖励共同训练生成器和生成验证器，消除了外部标注，同时通过联合对齐的验证器训练实现持续的策略改进。验证器的逐步语言批评明确地定位并解释失败，使生成器能够在中间步骤将推理轨迹重定向到替代决策。轨迹重定向设计保证了无害的策略改进，即使在噪声或次优的验证器反馈下也是如此。在多种推理基准上的实验表明，STRIDE显著超越了最先进的基线方法，并在零通过率问题上取得了突破，在这些问题上，标量方法在我们的消融研究中无法提供学习信号，这证明了可学习的逐步语言反馈在增强LLM推理方面的有效性。

查看原文

STRIDE：面向LLM推理的可学习逐步语言反馈

相似文章

STRIDE-ED: 一个策略驱动的多步推理框架用于同情心对话系统

MILES：用于自我提升大型语言模型推理的可学习选择模块化指令记忆

学习细化隐藏状态以实现可靠的LLM推理

STRIDE：通过子集扰动的稀疏恢复进行训练数据归因

通过逐步置信归因诊断黑盒大语言模型中的多步推理失败

提交意见反馈