pairwise-preference

标签

Cards List
#pairwise-preference

成对参考对齐作为模型级别的序数可观测变量

arXiv cs.CL · 6天前 缓存

本文形式化了成对参考对齐作为模型级别的序数可观测变量,定义了一个统计量来衡量模型评分与参考偏好分布之间的一致性,并给出了有限样本估计量以及在Qwen2.5模型和RewardBench上的实证研究。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈