标签
本文提出通过可学习信用分配的结果监督过程奖励建模(LCA),一个在最弱一环原则下联合学习信用分配和奖励建模的框架,将其形式化为一个使用Softmax加权和池化的多实例学习问题。实验表明,它在多个任务上优于现有的结果监督过程奖励模型(PRMs)。
TACO提出了一种针对代码工具智能体的新型信用优化方法,该方法使用差分奖励探针和结果门控优势路由来区分有用、冗余或误导性的工具调用,从而提升多模态智能体的性能。
BiPACE提出了一种即插即用的优势估计器,用于修复LLM智能体逐步分组强化学习中的状态-动作信用分配错配问题。该方法利用双模拟引导的状态聚类和动作反事实估计,在ALFWorld、WebShop和TextCraft基准上,配合Qwen2.5模型实现了显著的性能提升。
自重置策略优化 (SRPO) 通过在多步推理强化学习后训练中定位第一个错误的推理步骤并从中学习反事实延续,而无需外部监督,来解决信用分配问题。
GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。
本文提出分层优势加权行为克隆(HABC),用于利用具有稀疏二进制回合结果的在线强化学习微调视觉-语言-动作(VLA)策略。HABC通过自适应评价器头和干预感知的信用分配将可行性和效率目标分离,显著提高了接触密集型双手操作任务的成功率。
APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。
本文提出了一种用于仅前向卷积神经网络的可学习通道-类别分配机制,结合了熵和正交正则化以及损失感知的层级贡献策略。该方法在CIFAR-10、CIFAR-100和Tiny-ImageNet上实现了前向-前向算法中的最先进性能,显著缩小了与反向传播的差距。
本文提出LEAF,一种基于回顾树的强化学习方法,用于语音感知大语言模型后训练,无需在线分支即可改进信用分配。在语音问答和语音翻译基准测试中,LEAF优于GRPO。
PBSD提出了一种贝叶斯自蒸馏方法,将稀疏的最终奖励转化为经过校准的回合级信用信号,用于长时域智能体任务,从而改进策略学习与泛化能力。
StepPO 引入了一种面向智能体强化学习的步骤中心范式,该范式将策略优化与智能体决策粒度对齐,在多轮交互任务中优于以令牌为中心的方法。
本文指出了在使用LoRA进行LLM强化学习时,令牌级信用分配中存在的一种结构性失效模式,即内在信号退化。它提出了适配器残差信用分配(ARCA),该方法从适配器的隐藏状态残差中推导令牌显著性,并与基线方法保持竞争力。
本文介绍了SPADER,一个用于多答案问答的强化学习框架,它使用逐步同行优势进行信用分配,并采用多样性感知探索奖励来提高长尾实体的召回率,在多个基准测试上取得了更好的性能。
介绍了Score Broadcast and Decorrelation (SBD),一种原则性的基于广播的信用分配框架,该框架可推广到包括交叉熵、Bregman散度和适当评分规则在内的可微损失族。该工作为三因子学习规则提供了理论基础,并在CIFAR-10和Tiny ImageNet上展示了相较于现有广播方法的性能提升。
DecomposeR 提出了一种以规划器为中心的强化学习框架,将研究计划表示为类型化的有向无环图(DAG),从而实现对深度研究任务中规划与执行的细粒度优化,在开源基线基础上提升 5.1–8.0 个点。
VeriGate通过验证器门控步级监督扩展了GRPO,在验证器奖励退化时提供细粒度的信用分配。在1.5B和7B模型的推理基准测试上实现了显著的准确率提升。
本文介绍了PRO-CUA,一种使用迭代步骤级强化学习训练计算机使用代理(CUA)的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦,实现了密集的信用分配,无需依赖专家轨迹,并在实时网络基准测试中展示了有效性。
本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。
本文识别了长期累积损伤问题中策略梯度方法的两种失败模式——完成与最优性——并提出了一种分别处理它们的分解方法,并在两个校准环境中进行了验证。
RICE-PO 是一个无需评判器的策略优化框架,它将检索交互转化为局部化信用信号,用于训练推理代理。在相同检索器设置下,该框架在 BRIGHT 和 BEIR 基准测试中持续优于基于提示的代理和基于组的强化学习基线。