标签
本文形式化了成对参考对齐作为模型级别的序数可观测变量,定义了一个统计量来衡量模型评分与参考偏好分布之间的一致性,并给出了有限样本估计量以及在Qwen2.5模型和RewardBench上的实证研究。