credit-assignment

#credit-assignment

最弱一环说明一切：通过可学习信用分配的结果监督过程奖励建模

arXiv cs.LG ↗ · 昨天缓存

本文提出通过可学习信用分配的结果监督过程奖励建模（LCA），一个在最弱一环原则下联合学习信用分配和奖励建模的框架，将其形式化为一个使用Softmax加权和池化的多实例学习问题。实验表明，它在多个任务上优于现有的结果监督过程奖励模型（PRMs）。

0 人收藏 0 人点赞

#credit-assignment

TACO：面向智能体工具使用的工具增强信用优化

Hugging Face Daily Papers ↗ · 2天前缓存

TACO提出了一种针对代码工具智能体的新型信用优化方法，该方法使用差分奖励探针和结果门控优势路由来区分有用、冗余或误导性的工具调用，从而提升多模态智能体的性能。

0 人收藏 0 人点赞

#credit-assignment

BiPACE: 面向LLM智能体的双模拟引导策略优化与动作反事实估计

arXiv cs.CL ↗ · 5天前缓存

BiPACE提出了一种即插即用的优势估计器，用于修复LLM智能体逐步分组强化学习中的状态-动作信用分配错配问题。该方法利用双模拟引导的状态聚类和动作反事实估计，在ALFWorld、WebShop和TextCraft基准上，配合Qwen2.5模型实现了显著的性能提升。

0 人收藏 0 人点赞

#credit-assignment

@Ankur_Samanta_: 在多步推理强化学习后训练中关于信用分配的新工作介绍自重置策略优化 (SRPO…

X AI KOLs Timeline ↗ · 2026-06-22 缓存

自重置策略优化 (SRPO) 通过在多步推理强化学习后训练中定位第一个错误的推理步骤并从中学习反事实延续，而无需外部监督，来解决信用分配问题。

0 人收藏 0 人点赞

#credit-assignment

GAGPO：广义优势分组策略优化

arXiv cs.AI ↗ · 2026-06-15 缓存

GAGPO提出了一种无评论家的强化学习方法，在多方交互的自主任务中，利用非参数分组价值代理进行步级信用分配，在ALFWorld和WebShop上超越了强基线模型。

0 人收藏 0 人点赞

#credit-assignment

分层优势加权：面向稀疏回合结果的VLA在线强化学习微调

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

本文提出分层优势加权行为克隆（HABC），用于利用具有稀疏二进制回合结果的在线强化学习微调视觉-语言-动作（VLA）策略。HABC通过自适应评价器头和干预感知的信用分配将可行性和效率目标分离，显著提高了接触密集型双手操作任务的成功率。

0 人收藏 0 人点赞

#credit-assignment

APPO: 智能体过程策略优化

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配，从而提升LLM智能体的多轮工具使用能力，在13个基准测试中比基线高出近4个百分点。

0 人收藏 0 人点赞

#credit-assignment

具有可学习通道-类别分配的仅前向卷积神经网络

arXiv cs.LG ↗ · 2026-06-10 缓存

本文提出了一种用于仅前向卷积神经网络的可学习通道-类别分配机制，结合了熵和正交正则化以及损失感知的层级贡献策略。该方法在CIFAR-10、CIFAR-100和Tiny-ImageNet上实现了前向-前向算法中的最先进性能，显著缩小了与反向传播的差距。

0 人收藏 0 人点赞

#credit-assignment

LEAF: 面向语音感知大语言模型后训练的无分支树生长方法

arXiv cs.LG ↗ · 2026-06-09 缓存

本文提出LEAF，一种基于回顾树的强化学习方法，用于语音感知大语言模型后训练，无需在线分支即可改进信用分配。在语音问答和语音翻译基准测试中，LEAF优于GRPO。

0 人收藏 0 人点赞

#credit-assignment

PBSD：用于长时域信用分配的特权贝叶斯自蒸馏

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

PBSD提出了一种贝叶斯自蒸馏方法，将稀疏的最终奖励转化为经过校准的回合级信用信号，用于长时域智能体任务，从而改进策略学习与泛化能力。

0 人收藏 0 人点赞

#credit-assignment

StepPO：面向智能体强化学习的步骤对齐策略优化

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

StepPO 引入了一种面向智能体强化学习的步骤中心范式，该范式将策略优化与智能体决策粒度对齐，在多轮交互任务中优于以令牌为中心的方法。

0 人收藏 0 人点赞

#credit-assignment

ARCA：令牌信号退化时的适配器残差信用分配

arXiv cs.LG ↗ · 2026-06-02 缓存

本文指出了在使用LoRA进行LLM强化学习时，令牌级信用分配中存在的一种结构性失效模式，即内在信号退化。它提出了适配器残差信用分配（ARCA），该方法从适配器的隐藏状态残差中推导令牌显著性，并与基线方法保持竞争力。

0 人收藏 0 人点赞

#credit-assignment

SPADER：多答案问答中的逐步同行优势与多样性感知探索奖励

arXiv cs.CL ↗ · 2026-06-02 缓存

本文介绍了SPADER，一个用于多答案问答的强化学习框架，它使用逐步同行优势进行信用分配，并采用多样性感知探索奖励来提高长尾实体的召回率，在多个基准测试上取得了更好的性能。

0 人收藏 0 人点赞

#credit-assignment

Score Broadcast and Decorrelation: 一种基于广播的信用分配通用框架

arXiv cs.LG ↗ · 2026-06-01 缓存

介绍了Score Broadcast and Decorrelation (SBD)，一种原则性的基于广播的信用分配框架，该框架可推广到包括交叉熵、Bregman散度和适当评分规则在内的可微损失族。该工作为三因子学习规则提供了理论基础，并在CIFAR-10和Tiny ImageNet上展示了相较于现有广播方法的性能提升。

0 人收藏 0 人点赞

#credit-assignment