标签
本文提出通过可学习信用分配的结果监督过程奖励建模(LCA),一个在最弱一环原则下联合学习信用分配和奖励建模的框架,将其形式化为一个使用Softmax加权和池化的多实例学习问题。实验表明,它在多个任务上优于现有的结果监督过程奖励模型(PRMs)。