成对参考对齐作为模型级别的序数可观测变量

arXiv cs.CL 论文

摘要

本文形式化了成对参考对齐作为模型级别的序数可观测变量,定义了一个统计量来衡量模型评分与参考偏好分布之间的一致性,并给出了有限样本估计量以及在Qwen2.5模型和RewardBench上的实证研究。

arXiv:2605.30758v1 公告类型:新 摘要:成对偏好数据广泛用于语言模型评估和对齐,通常用于模型排名、奖励建模或偏好优化。本文提出一个更基础的测量问题:给定一个成对偏好的参考分布,当我们测试一个模型是否将优先回答排在拒绝回答之上时,估算的是什么样的模型级别量? 我们将成对参考对齐定义为由模型评分函数诱导的序数可观测变量。给定一个参考对分布 $P_{\mathrm{pair}}$,其定义在三元组 $(x,y^+,y^-)$ 上,以及一个标量模型评分 $S_M(x,y)$,我们将对齐可观测变量定义为模型诱导的顺序与参考偏好顺序一致的概率。我们进一步定义了一个中心化的序参数类统计量,并讨论了基于边界的扩展。这些量在独立采样假设下具有简单的有限样本估计量和浓度界。 本文没有引入新的基准。它提供了成对参考对齐的概念和统计公式,阐明了参考对分布的作用,并将一般的序数可观测变量与评分选择(如归一化对数概率或基于能量的评分)区分开来。我们还提供了在Qwen2.5模型和RewardBench上的初步实证研究,其中所提出的统计量随模型大小和指令调优而增加,并按照公式的预测在不同参考对子集间变化。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:28

# 成对参考对齐:一种模型层级的有序可观测量的形式化定义
来源:https://arxiv.org/html/2605.30758 \(2026年5月\)

###### 摘要

成对偏好数据广泛用于语言模型的评估与对齐,通常用于模型排名、奖励建模或偏好优化。本文笔记提出了一个更基本的测量问题:给定一个成对偏好的参考分布,当我们检验一个模型是否将偏好的回答排在拒绝的回答之上时,所估计的是哪个模型层级的量?我们将成对参考对齐定义为由模型评分函数诱导的一种有序可观测量。给定一个参考对分布 \(P_{\mathrm{pair}}\) 作用于三元组 \((x, y^+, y^-)\),以及一个标量模型得分 \(S_M(x, y)\),我们将对齐可观测量定义为模型诱导的排序与参考偏好排序一致的概率。我们进一步定义了一个中心化的、类似序参数的量,并讨论了一种基于间隔的扩展。所得的量在独立抽样假设下具有简单的有限样本估计量和集中界。本文笔记不引入新的基准。它为成对参考对齐提供了概念和统计上的形式化,阐明了参考对分布的作用,并将一般的排序可观测量与评分选择(如归一化对数概率或基于能量的得分)区分开来。我们还提供了关于 Qwen2.5 模型和 RewardBench 的初步实证研究,其中所提出的统计量随模型规模和指令微调而增加,并且按公式预测在不同参考对子集间存在差异。

## 1 引言

成对偏好数据广泛用于语言模型的评估与对齐 [14 (https://arxiv.org/html/2605.30758#bib.bib1), 2 (https://arxiv.org/html/2605.30758#bib.bib2), 15 (https://arxiv.org/html/2605.30758#bib.bib3), 18 (https://arxiv.org/html/2605.30758#bib.bib6), 3 (https://arxiv.org/html/2605.30758#bib.bib7)]。一个典型的比较包括一个提示 \(x\)、一个偏好回答 \(y^+\) 和一个拒绝回答 \(y^-\)。这类数据出现在人类偏好评估、奖励建模、直接偏好优化和模型排名系统中,通常用于训练奖励模型、优化策略、计算胜率或对多个系统进行排名。

本文笔记提出了一个更基本的测量问题。给定一个成对偏好的参考分布,当我们检查一个模型是否将 \(y^+\) 排在 \(y^-\) 之上时,所估计的是哪个模型层级的量?更具体地说:

*模型 \(M\) 诱导的排序是否与参考偏好排序一致?*

核心前提是,一个对分布可以携带偏好信息。偏好不一定首先表现为分配给每个回答的绝对分数。它反而可能表现为一种稳定的比较关系,就像在更广泛的偏好学习公式中那样 [8 (https://arxiv.org/html/2605.30758#bib.bib19), 16 (https://arxiv.org/html/2605.30758#bib.bib18), 6 (https://arxiv.org/html/2605.30758#bib.bib20)]。如果一个人群、专家系统或更强的模型在目标分布下一致地选择 \(y^+\) 而非 \(y^-\),那么对分布本身就提供了参考偏好的经验表达。例如,对于固定的提示 \(x\),重复的比较可能表明“≻”表示参考偏好关系。从对分布 \( (x, y^+, y^-) \sim P_{\mathrm{pair}} \) 中采样的三元组已经携带了关于参考偏好下哪个回答更受偏好的排序信号。

本文笔记的目标是将这个排序信号转化为一个模型层级的量。给定一个模型评分函数 \(S_M(x, y)\),我们定义模型诱导的排序与参考偏好排序一致的概率:

\[
A_M(P_{\mathrm{pair}}) = \mathbb{P}_{(x, y^+, y^-) \sim P_{\mathrm{pair}}} \left[ S_M(x, y^+) > S_M(x, y^-) \right].
\]

这个量并非意图作为人类偏好、模型能力或对齐的完整度量。它是一个估计目标:在指定的对分布下,模型诱导排序与参考偏好排序之间的一致性概率。

本文笔记的贡献是概念性和统计上的。成对比较本身并不新鲜;本文的贡献在于,将基于固定评分规则和参考对分布所诱导的总体级测量对象孤立出来,并将有限的基准分数视为该对象的估计量而非对象本身。我们定义了一个离散的成对参考对齐可观测实量和一个实值间隔统计量,区分总体量与有限样本估计量,推导出简单的集中界,并讨论对数概率或基于能量的得分如何提供自然的评分选择。序参数的术语借用于统计物理学,因为所提出的量将许多局部成对关系压缩为相对于参考分布的一个单一宏观统计量。这一类比将在第7节 (https://arxiv.org/html/2605.30758#S7) 中再次讨论。

在实证方面,我们在 Qwen2.5 模型 [17 (https://arxiv.org/html/2605.30758#bib.bib5)] 上使用 RewardBench [10 (https://arxiv.org/html/2605.30758#bib.bib4)] 实例化了此框架,并采用标记归一化的对数似然分数。实验并非旨在对模型族或偏好分布进行完整验证。相反,它们检验所提出的可观测量是否在受控环境下行为一致:更大的模型和经过指令微调的模型应该与参考排序表现出更强的一致性;子集级别的估计应取决于参考对分布;有限样本行为应与统计分析相符。

## 2 问题形式化

### 2.1 参考对分布

设 \(P_{\mathrm{pair}}\) 表示一个目标参考对分布。从该分布中抽取的样本是一个三元组 \((x, y^+, y^-) \sim P_{\mathrm{pair}}\),其中 \(x\) 是提示,\(y^+\) 是参考偏好的回答,\(y^-\) 是参考拒绝的回答。参考可以是一个人工标注员群体、一个专家规则系统、一个更强的模型、一个奖励模型,或者一个定义期望行为维度(如有帮助、无害、真实或数学推理质量)的策略。参考提供了偏好/拒绝的关系,而 \(S_M\) 提供了正在被检验的模型诱导排序。

\(P_{\mathrm{pair}}\) 的不同选择定义了不同的对齐目标:数学推理比较和安全性比较,例如,并不指定相同的目标。因此,本文中的对齐总是相对于指定的参考对分布而言。

### 2.2 有限评估集

在实践中,我们无法观察到完整的分布 \(P_{\mathrm{pair}}\)。我们观察到的是一个有限的评估集 \(\mathcal{C} = \{ (x_k, y_k^+, y_k^-) \}_{k=1}^K\)。

区分 \(P_{\mathrm{pair}}\) 和 \(\mathcal{C}\) 很重要。前者是概念上的目标分布;后者是用于估计模型层级量的经验样本。关于对齐的论述的范围仅限于评估集所代表的参考分布。

## 3 模型诱导排序

设 \(M\) 是一个模型,并设 \(S_M(x, y) \in \mathbb{R}\) 是一个由模型赋予或与模型关联的标量评分函数,用于在提示 \(x\) 下对回答 \(y\) 进行评分。该分数可以是奖励模型得分、裁判得分、任务特定评估得分,或者任何其他可以在相同提示下比较两个回答的标量值。

评分函数诱导了一个对回答的排序:

\[
y_i \succ_M y_j \quad \Longleftrightarrow \quad S_M(x, y_i) > S_M(x, y_j),
\]

其中 \(\succ_M\) 表示由模型 \(M\) 和得分 \(S_M\) 诱导的偏好关系。第4节 (https://arxiv.org/html/2605.30758#S4) 和第5节 (https://arxiv.org/html/2605.30758#S5) 中的统计构造仅依赖于此诱导排序,而不依赖于得分的来源。在第7节 (https://arxiv.org/html/2605.30758#S7) 中,我们讨论归一化对数概率和相应的负能量得分作为语言模型的自然评分选择。

## 4 成对参考对齐可观测量

### 4.1 定义

我们首先定义一个离散的、基于符号的可观测量。此构造仅询问模型是否将参考偏好的回答排在拒绝回答之上。它不衡量该偏好的强度。

###### 定义 1 (成对一致性指示变量)。
对于一个对 \((x, y^+, y^-)\),定义

\[
Z_M(x, y^+, y^-) = \mathbf{1} \left[ S_M(x, y^+) > S_M(x, y^-) \right].
\]

那么 \(Z_M = 1\) 表示模型诱导排序与参考偏好排序之间一致,而 \(Z_M = 0\) 表示不一致。

###### 定义 2 (成对参考对齐可观测量)。
模型层级的成对参考对齐可观测量为

\[
A_M(P_{\mathrm{pair}}) = \mathbb{E}_{(x, y^+, y^-) \sim P_{\mathrm{pair}}} \left[ Z_M(x, y^+, y^-) \right].
\]

等价地,

\[
A_M(P_{\mathrm{pair}}) = \mathbb{P}_{(x, y^+, y^-) \sim P_{\mathrm{pair}}} \left[ S_M(x, y^+) > S_M(x, y^-) \right].
\]

量 \(A_M(P_{\mathrm{pair}})\) 有一个直接的解释:如果从参考对分布中随机抽取一个对,它表示模型诱导排序与参考排序一致的概率。

对于中心化的版本,定义

\[
m_M^{\mathrm{sign}}(P_{\mathrm{pair}}) = 2 A_M(P_{\mathrm{pair}}) - 1.
\]

那么 \(m_M^{\mathrm{sign}} = 1\) 表示完美一致,\(m_M^{\mathrm{sign}} = 0\) 对应于随机水平的一致,而 \(m_M^{\mathrm{sign}} < 0\) 表示系统性地偏向于参考拒绝的回答。在这个意义上,\(m_M^{\mathrm{sign}}\) 可以被视为一个类似序参数的统计量:许多微观的成对比较被平均成一个单一量,该量总结了模型相对于参考对分布的宏观状态。与统计物理序参数的联系将在第7节 (https://arxiv.org/html/2605.30758#S7) 中再次讨论。

### 4.2 有限样本估计与界

给定一个有限的评估集 \(\mathcal{C} = \{ (x_k, y_k^+, y_k^-) \}_{k=1}^K\),\(A_M(P_{\mathrm{pair}})\) 的经验估计量为

\[
\hat{A}_M(\mathcal{C}) = \frac{1}{K} \sum_{k=1}^K Z_M(x_k, y_k^+, y_k^-).
\]

相应的经验中心化统计量为

\[
\hat{m}_M^{\mathrm{sign}}(\mathcal{C}) = 2 \hat{A}_M(\mathcal{C}) - 1.
\]

假设 \(\mathcal{C}\) 中的对是独立地从 \(P_{\mathrm{pair}}\) 中抽取的。由于每个 \(Z_M(x_k, y_k^+, y_k^-) \in \{0,1\}\),Hoeffding 不等式给出

\[
\mathbb{P} \left( \left| \hat{A}_M(\mathcal{C}) - A_M(P_{\mathrm{pair}}) \right| \geq \epsilon \right) \leq 2 \exp(-2K\epsilon^2).
\]

因此,为了保证误差小于 \(\epsilon\) 且概率至少为 \(1-\delta\),需要

\[
K \geq \frac{1}{2\epsilon^2} \log \frac{2}{\delta}.
\]

例如,如果 \(\epsilon = 0.05\) 且 \(\delta = 0.05\),那么

\[
K \geq \frac{1}{2(0.05)^2} \log \frac{2}{0.05} \approx 738.
\]

简短推导见附录A.1 (https://arxiv.org/html/2605.30758#A1.SS1)。

这是一个总体估计界,而不仅仅是有限评估集的描述性统计量。在独立抽样下,\(\hat{A}_M(\mathcal{C})\) 估计 \(A_M(P_{\mathrm{pair}})\),并且该界提供了在规定的误差内逼近该一致概率所需的足够对的数量。因此,评估集是目标量的抽样工具,而不是被定义的对象本身。这与将语言模型评估视为具有明确不确定性估计的统计实验的观点一致 [12 (https://arxiv.org/html/2605.30758#bib.bib8), 1 (https://arxiv.org/html/2605.30758#bib.bib9)]。该界不控制标签噪声、\(\mathcal{C}\) 与预期目标分布之间的不匹配、数据污染、重复的基准选择或 \(S_M\) 的适用性。

## 5 间隔可观测量

基于符号的可观测量回答了一个离散问题:模型是否正确地对对进行了排序?它没有回答模型正确或错误排序的强度。为了保留这些信息,定义有符号间隔

\[
d_M(x, y^+, y^-) = S_M(x, y^+) - S_M(x, y^-).
\]

正间隔表示与参考偏好一致;负间隔表示不一致。

相应的总体间隔为

\[
\mu_M(P_{\mathrm{pair}}) = \mathbb{E}_{(x, y^+, y^-) \sim P_{\mathrm{pair}}} \left[ d_M(x, y^+, y^-) \right],
\]

经验估计量为

\[
\hat{\mu}_M(\mathcal{C}) = \frac{1}{K} \sum_{k=1}^K d_M(x_k, y_k^+, y_k^-).
\]

### 5.1 间隔的解释

间隔 \(d_M(x, y^+, y^-)\) 是在相同提示下两个回答之间的有符号得分差。它同时记录了模型诱导排序的方向和得分差距的幅度。正间隔意味着模型得分倾向于参考偏好的回答,而负间隔倾向于参考拒绝的回答。

符号可观测量仅保留间隔是否为正:

\[
Z_M(x, y^+, y^-) = \mathbf{1} \left[ d_M(x, y^+, y^-) > 0 \right].
\]

因此,\(A_M(P_{\mathrm{pair}})\) 平均的是间隔的符号而非其幅度。符号构造简单、有界且统计上稳定,但会丢弃偏好强度。间隔统计量则保留了这些信息。

当得分是对数概率时,解释变得尤为具体,这将在第7节 (https://arxiv.org/html/2605.30758#S7) 讨论。如果 \(S_M(x, y) = \log Q_M(y \mid x)\),那么间隔为

\[
d_M(x, y^+, y^-) = \log Q_M(y^+ \mid x) - \log Q_M(y^- \mid x) = \log \frac{Q_M(y^+ \mid x)}{Q_M(y^- \mid x)}.
\]

在这种情况下,间隔是参考偏好回答与参考拒绝回答之间的对数似然比。

相似文章

关于基于代理的测试时对齐的拒绝准则

arXiv cs.CL

本文分析了使用小型对齐模型作为代理来指导大型未对齐模型生成的测试时对齐方法。作者提出了一种基于保守置信赌注的新型拒绝准则,并在多个数据集上展示了相比现有方法的改进效果。

主动学习作为高效的PRP重排序器

Hugging Face Daily Papers

本文将有对排名提示(PRP)重新定义为从噪声比较中进行主动学习,引入了一个具有随机方向预测器的噪声鲁棒框架,以在调用约束下提高排名质量并解决位置偏差问题。

大语言模型中词汇对齐与偏好阶段转变的全自动识别

arXiv cs.CL

本文提出了两种自动化指标:词汇对齐分数(Lexical Alignment Score)和三角化偏好转变(Triangulated Preference Shift),用于识别大语言模型中的词汇过度使用,并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试,无需人工干预即可重复先前的研究发现。