rubric-rewards

#rubric-rewards

并非每种评分标准都同样有效：面向策略感知的评分标准奖励用于RLVR

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

本文提出POW3R，一种面向策略感知的评分标准奖励框架，用于可验证奖励的强化学习（RLVR）。它表明静态评分标准聚合会错误分配学习信号，而POW3R在多种设置下实现了更快的收敛和更好的性能。

0 人收藏 0 人点赞