weakest-link

#weakest-link

最弱一环说明一切：通过可学习信用分配的结果监督过程奖励建模

arXiv cs.LG ↗ · 3天前缓存

本文提出通过可学习信用分配的结果监督过程奖励建模（LCA），一个在最弱一环原则下联合学习信用分配和奖励建模的框架，将其形式化为一个使用Softmax加权和池化的多实例学习问题。实验表明，它在多个任务上优于现有的结果监督过程奖励模型（PRMs）。

0 人收藏 0 人点赞