PEBS: 每个评分者的经验贝叶斯收缩用于RLHF奖励模型校准

arXiv cs.LG 论文

摘要

介绍PEBS,一种用于RLHF中奖励模型校准的每个评分者经验贝叶斯收缩估计器,在PRISM上将用户内RMSE降低了超过8.5%,在PluriHarms上降低了超过9.6%。

arXiv:2606.27578v1 公告类型:新 摘要:从人类反馈中强化学习(RLHF)的奖励模型汇集了数千名标注者的偏好,并拟合一个全局仿射校准器,将具有系统性不同评分尺度偏移和斜率的评分者压缩为一个不符合任何单个标注者的平均评分者拟合。PEBS是一种每个评分者的经验贝叶斯收缩估计器:它在每个标注者评分的一个保留子集上拟合每个评分者的仿射校准器,并应用Morris-James-Stein经验贝叶斯收缩向总体均值靠拢,采用封闭形式且无需重新训练奖励模型。在PRISM上,PEBS将用户内保留集的RMSE降低了8.58%,超过混合总体斜率基线。该过程在PluriHarms的危害评分(基于Qwen-2.5,同族模型)上复现,与同一总体斜率基线相比,RMSE降低了9.66%。PEBS是一种针对RLHF奖励建模中标注者特定仿射校准的封闭形式事后估计器;它保持奖励基础模型不变,仅估计推理时用于新评分的评分者级别映射。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:23

# 用于RLHF奖励模型校准的每评估者经验贝叶斯收缩

来源:https://arxiv.org/html/2606.27578

###### 摘要

用于人类反馈强化学习(RLHF)的奖励模型汇集了数千名标注者的偏好,并拟合一个全局仿射校准器,将具有系统性不同评分尺度偏移和斜率的评估者压缩为单一的均值评估者拟合,这并不匹配任何单个标注者。PEBS 是一种每评估者经验贝叶斯收缩估计器:它在每个标注者评分的保留切片上拟合每评估者仿射校准器,并应用 Morris–James–Stein 经验贝叶斯收缩朝向总体均值,采用闭式形式且无需重新训练奖励模型。在 PRISM 上,PEBS 相比汇集总体斜率基线,将用户内保留 RMSE 降低了 **8.58%**。该过程在 PluriHarms 危害评分(Qwen-2.5 基础,同族)上复制,相比同一总体斜率基线,RMSE 降低 **+9.66%**。PEBS 是一种用于 RLHF 奖励建模中标注者特异性仿射校准的闭式后验估计器;它保持奖励基础模型不变,仅估计推理时用于新评分的评估者级映射。

RLHF, 多元对齐, 经验贝叶斯, 每标注者校准, 奖励建模

## 1 引言与相关工作

请参考图 1 的说明。图 1:Phi-3-medium-14B 同族案例落在 ±5 个百分点(单种子锚点 +43.23%,阴影带)范围内;Qwen-2.5 行在不同指标(HelpSteer2 汇集 RMSE,+18.24%)上同族复制。点估计值的森林图,附 95% 行簇自助法置信区间,按基础模型族分组。三个 Llama 族密集基础模型作为范围表征显示在第二行:在一致性头部上,它们分裂为两个负结果和一个宽置信区间零结果。仅重新训练冗长性头部在同一基础模型上恢复了正增益,指出这是一致性头部/密集架构的交互作用,而非属性无关的冗长性偏差;校准诊断见附录 B。用于人类反馈的强化学习(Christiano 等人,2017;Stiennon 等人,2020;Ouyang 等人,2022)假设一个 Bradley–Terry(Bradley & Terry, 1952)成对偏好模型:来自许多标注者的偏好被汇集到一个似然函数中,拟合标量奖励 \( r_{\phi} \),结果用于近端策略优化(PPO)风格的 RLHF 或 DPO(Rafailov 等人,2023)。¹¹代码和拟合校准器:https://github.com/deadsmash07/pebs-pluralistic。标准的汇集似然目标从这种聚合中去掉了标注者索引 \( j \),这会将具有系统性不同评分尺度校准的评估者压缩为单个全局仿射拟合,并将校准异质性与奖励信号混淆。图 1 预览了基础族迁移总结:该过程在 Qwen-2.5 和 Phi-3 参考行上复制,在三个 Llama 族密集基础模型中使用一致性头部训练时转为负值,而在仅冗长性的运行中在这些相同基础模型上恢复了正增益,表明存在一致性头部/密集架构交互作用(§3.5)。

不同的标注者异质地使用 0–100 评分尺度。有些压缩尺度,有些拉伸尺度,还有些基准不同。天真地汇集此类观察结果会得到一个拟合“平均”评估者的奖励模型(RM),这种拟合不对应任何单个标注者。几条工作路线使测量有效性问题变得明确:Ghafouri 等人(2026)认为 RLHF 偏好测量需要社会科学诊断,Ma 等人(2026)报告前沿 RM 在*他们*的每用户偏好基准上最高达到 75.9%。Rezk 等人(2025)在 Pref-LaMP(个性化偏好基准)上测量上游 RM 对准确性与下游策略准确性之间的秩相关 \(\tau = 0.08\)–0.31(Kendall)。这些共同表明,即使全局 RM 的聚合准确性很高,它也会降低每标注者准确性。

部分池化是经典的修复方法,而每标注者效应建模是 RLHF 外心理测量学的主流。Rasch 模型(Rasch, 1960)和经典项目反应理论(Baker, 2001)参数化每评估者难度和区分度。Dawid & Skene(1979)给出了现代众包之前的经典评估者效应混合模型,Paun 等人(2018)在 NLP 标注上对分层贝叶斯评估者模型进行了基准测试,将部分池化确立为主导范式。在回归风格的数据分析中,教科书估计器是 Morris/James–Stein 经验贝叶斯(EB)收缩(Robbins, 1956;Morris, 1983)和最佳线性无偏预测器(BLUP)(Henderson, 1975),即线性混合模型理论中的经典 EB 估计器,混合权重 \(\omega = \tau^2/(\tau^2 + V)\) 是分层建模中的标准(Gelman & Hill, 2007;Pinheiro & Bates, 2000)。

#### RLHF 中的每用户奖励建模。

Sorensen 等人(2024b)概述的多元对齐计划区分了 Overton、可操控和分布轴(Bakker 等人(2022)在语言模型微调以达成每标注者一致性方面建立了直接上游证据);Conitzer 等人(2024)认为聚合分歧的人类反馈是一个社会选择问题;这条线上的基准和数据集包括 Castricato 等人(2025)(PERSONA,角色调节偏好)和 Zhang 等人(2025)(社区对齐,多语言代表性样本偏好,带负相关候选抽样)。标签 PEBS 表示此处使用的每评估者经验贝叶斯收缩估计器:操作上,它收缩标注者特异性仿射校准参数。该方法在互补轴上运行(见 §4):每标注者校准异质性。RLHF 工作也在几条不同的估计器轴上探索了每用户效应。Kobalczyk & van der Schaar(2025)在偏好学习的因果框架中公式化了用户特异性因子混淆。Zhang 等人(2026)使用学习到的用户原型;PEBS 则使用稳定的每评估者标识符。Liu 等人(2025)将评估者理性建模为标注者上下文的函数。人口统计协变量是否足以捕获每用户效应是可测试的:对拟合的每用户校准器与六个 PRISM 标注者特征(年龄、性别、地区、教育、政治取向、英语流利度;§3.8)进行方差分析(ANOVA,划分组间与组内方差),在 Bonferroni 校正后仅性别到 \(\hat{\beta}_j\) 的效应幸存,\(\eta^2 = 0.018\)(这里 \(\hat{\beta}_j\) 是来自第 2 节的每评估者偏移估计器),因此人口统计分组不能替代每用户校准。最相关的经验贝叶斯收缩方法 EBPO(Han 等人,2026)在可验证奖励任务上收缩每提示组相对策略优化(GRPO)优势基线,这针对不同的尺度(每提示优势,而非每评估者校准)。PEBS 与这些相关方法的比较见附录表 4。

#### 贡献。

首先,PEBS 将经典修正放在 RLHF 奖励管道通常忽略的地方:Efron–Morris–James–Stein 部分池化(Efron & Morris, 1973)用于标注者特异性尺度和偏移,后验应用于标量 RM 输出。在标注者异质性下,此修正实质上有助于校准敏感损失。在此设置中的结果是:使用 Qwen-2.5-7B 基础模型,在 PRISM 上用户内 RMSE 降低 8.58%(表 1);该过程在 PluriHarms 危害评分(+9.66%;§3.4)以及同族 Phi-3-medium-14B 参考(+42.15%,跨五个种子全部为正;§3.5)上复制。估计器是闭式的,并且作用于任何奖励模型标量预测的下游;消融实验(§3.9)将增益分解为教科书式的 Efron–Morris 截距收缩基础(即使在无信号(置换)奖励下也会出现)和一个较小的、需要真实奖励信号的 PEBS 特异性斜率收缩残差。一个预注册的四基础一致性探测(§3.5,表 2)从结构上识别了迁移极限:该过程在 Qwen-2.5 族内和 Phi-3-medium-14B 参考上迁移,而在 Llama 族密集基础模型上仅使用一致性训练时,三个中有两个转为负值;配对的仅冗长性对照在相同基础模型上恢复了正增益,指出是一致性头部/密集架构交互作用,而非属性无关的冗长性偏差。我们报告此范围边界,不声称普遍性。在理论方面,我们证明(§3.6,定理 1)PEBS 斜率收缩的样本分割变体保持在已知真实斜率方差的神谕的 \((1 + c/J)\) 因子内,具有显式常数;一个 PRISM 校准的已部署估计器模拟将实现的风险膨胀置于约 0.2% 附近。一个闭式 Morris g-函数预测器(§3.7)从简短先导实验中预测新语料库上的 PEBS 增益,在四个评分语料库上验证到 0.2 个百分点以内。附录表 4 将这些 Efron–Morris–James–Stein 估计器(Efron & Morris, 1973;Morris, 1983;Henderson, 1975)的扩展与最相关的个性化方法进行了对比。

## 2 方法

### 2.1 部分池化估计器

给定观测值 \(\{y_{ji}\}\),按标注者 \(j\) 和话语 \(i\) 索引,完全池化估计器忽略 \(j\)。我们转而通过经典的经验贝叶斯混合估计簇特异性参数 \(\theta_j\)

\[
\hat{\theta}_j^{\mathrm{PP}} = \omega_j \,\hat{\theta}_j^{\mathrm{local}} + (1-\omega_j)\,\hat{\theta}_{\mathrm{pool}},
\quad (1)
\]
\[
\omega_j = \frac{\tau^2}{\tau^2 + V(\hat{\theta}_j^{\mathrm{local}})},
\quad (2)
\]
其中 \(\tau^2\) 是 \(\theta_j\) 的跨簇方差,\(V(\hat{\theta}_j^{\mathrm{local}})\) 是簇内抽样方差。式 (2) 是 Morris/James–Stein 经验贝叶斯收缩(Morris, 1983),并恢复线性混合模型的 BLUP(Henderson, 1975)。当 \(\omega=0\) 时,它简化为汇集估计器;当 \(\omega\to1\) 时,它简化为每簇 OLS;闭式 \(\omega_j(n_j)\) 曲线和小子 \(n_j\) 降权在附录图 6 中可视化。

### 2.2 每用户校准模型

算法 1 端到端地阐述了三个阶段(共享奖励模型;每评估者 OLS 校准器;EB 收缩)。对于每个标注者 \(j\) 和话语 \(i\),我们将用户的连续偏好分数建模为

\[
s_{ji} = \alpha_j \,\hat{r}_\phi(x_{ji}) + \beta_j + \varepsilon_{ji},
\quad (3)
\]
其中 \(\hat{r}_\phi\) 是在汇集 PRISM 偏好上微调的共享奖励模型,\((\alpha_j, \beta_j)\) 是每用户线性校准器:\(\alpha_j\) 是每标注者乘法斜率(标注者 \(j\) 将一单位模型奖励转换为一单位自报分数的单位),\(\beta_j\) 是每标注者加法偏移(标注者 \(j\) 分配给零奖励响应的基线分数)。每用户 OLS 给出 \(\hat{\alpha}_j^{\mathrm{OLS}}, \hat{\beta}_j^{\mathrm{OLS}}\),抽样方差为 \(V(\hat{\alpha}_j) = \hat{\sigma}_\varepsilon^2 / \bigl(n_j \,\mathrm{Var}_j(\hat{r}_\phi(x_{ji}))\bigr)\)。EB 收缩估计器是式 (2) 的直接应用:

\[
\hat{\alpha}_j^{\mathrm{shrunk}} = \omega_\alpha^{(j)}\,\hat{\alpha}_j^{\mathrm{OLS}} + (1-\omega_\alpha^{(j)})\,\alpha_{\mathrm{pop}},
\quad (4)
\]
其中 \(\omega_\alpha^{(j)} = \hat{\tau}_\alpha^2 / (\hat{\tau}_\alpha^2 + V(\hat{\alpha}_j))\),类似公式用于 \(\hat{\beta}_j^{\mathrm{shrunk}}\)。\(\hat{\tau}_\alpha^2\) 是对每用户 \(\hat{\alpha}_j^{\mathrm{OLS}}\) 分布的方法矩(MoM)估计;在两层(评估者,观测)混合模型 \(s_{ji} \sim \beta_j + \alpha_j \hat{r}_\phi(x_{ji}) + \varepsilon\) 上进行的受限最大似然(REML)交叉检查(Seabold & Perktold, 2010;Pinheiro & Bates, 2000)在 PRISM 上对 \(\hat{\tau}_\alpha^2\) 有 3.5% 分歧,对 \(\hat{\tau}_\beta^2\) 有 11.1% 分歧;由于 EB 风险在真实值处对 \(\tau^2\) 是平稳的(§3.6,附录 A,步骤 2),\(\hat{\tau}^2\) 的百分比级误差仅以二阶扰动风险。拟合的跨用户相关性在 \(\hat{\alpha}_j\) 和 \(\hat{\beta}_j\) 之间,以及

相似文章

通过改变理性度来缓解RLHF中的认知偏差

arXiv cs.AI

本文提出了一种通过基于大型语言模型(LLM)对标注者可靠性的评估来动态调整理性度参数,从而缓解人类反馈强化学习(RLHF)中认知偏差的方法。

结合学习可靠性的过程奖励

arXiv cs.CL

BetaPRM 是一种过程奖励模型,它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性,从而实现自适应计算分配,在提高准确性的同时将 token 使用量减少高达 33.57%。

基于语义级奖励的LLM校准

arXiv cs.CL

提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。

校准偏好学习:以标签排序为例

arXiv cs.LG

本文形式化了概率标签排序的校准定义,引入了校准概念的层次结构,并表明常见模型校准不佳。进一步展示了在RLHF奖励模型中的应用,其中校准与准确性相关但不完全相同。