weakest-link

标签

Cards List
#weakest-link

最弱一环说明一切:通过可学习信用分配的结果监督过程奖励建模

arXiv cs.LG · 3天前 缓存

本文提出通过可学习信用分配的结果监督过程奖励建模(LCA),一个在最弱一环原则下联合学习信用分配和奖励建模的框架,将其形式化为一个使用Softmax加权和池化的多实例学习问题。实验表明,它在多个任务上优于现有的结果监督过程奖励模型(PRMs)。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈