STRIDE:面向LLM推理的可学习逐步语言反馈
摘要
STRIDE提出了一种训练框架,使用可学习的逐步语言反馈而非标量奖励来提升LLM推理能力,在多种基准测试上取得了最先进的结果。
arXiv:2605.18851v1 公告类型:新
摘要:强化学习(RL)的最新进展凸显了其在激励大型语言模型(LLMs)推理能力方面的潜力。然而,现有的步骤级方法受限于昂贵的标注,限制了领域覆盖范围,而标量分数进一步造成了信息瓶颈,提供的语义带宽不足以改进中间决策。替代的语言批评方法依赖于固定或外部批评者,提供了更丰富的文本反馈,但缺乏持续策略改进所需的可扩展性。在这项工作中,我们提出了语言驱动的逐步轨迹重定向,称为STRIDE,这是一种新颖的训练框架,将过程监督从标量奖励转变为可学习的逐步语言反馈。具体来说,我们仅使用基于结果的奖励共同训练生成器和生成验证器,消除了外部标注,同时通过联合对齐的验证器训练实现持续的策略改进。验证器的逐步语言批评明确地定位并解释失败,使生成器能够在中间步骤将推理轨迹重定向到替代决策。轨迹重定向设计保证了无害的策略改进,即使在噪声或次优的验证器反馈下也是如此。在多种推理基准上的实验表明,STRIDE显著超越了最先进的基线方法,并在零通过率问题上取得了突破,在这些问题上,标量方法在我们的消融研究中无法提供学习信号,这证明了可学习的逐步语言反馈在增强LLM推理方面的有效性。
相似文章
STRIDE-ED: 一个策略驱动的多步推理框架用于同情心对话系统
STRIDE-ED 是一个为同情心对话系统设计的策略驱动推理框架,它结合了结构化的多阶段推理、数据精化管道和两阶段训练(有监督微调 + 多目标强化学习)来改进情感理解和回复生成。该框架在开源大语言模型上的自动评指标和人工评估上都展示了一致的改进。
STRIDE:通过子集扰动的稀疏恢复进行训练数据归因
STRIDE是一种用于大型语言模型训练数据归因的新框架,它利用稀疏恢复和引导算子在激活空间中建模功能效应,以13倍于先前方法的速度实现了最先进的准确性。
通过逐步置信归因诊断黑盒大语言模型中的多步推理失败
提出逐步置信归因(SCA),一个无需内部访问即可为黑盒大语言模型的推理轨迹分配逐步置信度的框架,利用信息瓶颈原理区分合法变异性与错误。实验表明,SCA能可靠地识别低置信度步骤,并将自纠正成功率相比答案级别反馈提升高达13.5%。
@LakshyAAAgrawal: 从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。…
快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。