annotator-calibration

标签

Cards List
#annotator-calibration

PEBS: 每个评分者的经验贝叶斯收缩用于RLHF奖励模型校准

arXiv cs.LG · 20小时前 缓存

介绍PEBS,一种用于RLHF中奖励模型校准的每个评分者经验贝叶斯收缩估计器,在PRISM上将用户内RMSE降低了超过8.5%,在PluriHarms上降低了超过9.6%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈