隐藏的共识:人类反馈中的偏好有效性压缩

arXiv cs.CL 论文

摘要

本文认为,标准RLHF将人类偏好标量化的做法导致多个有效解释被压缩为单一目标,从而在文化多元的社会中错误衡量对齐。通过对马来西亚数据集的分析,研究发现79%的提示词存在多个多数支持的回答,而这些回答在单一胜者聚合中被丢弃。

arXiv:2606.10569v1 公告类型:新 摘要:标准RLHF流程通常将异质性的人类判断压缩为单个标量奖励目标。我们认为,这种简化可能在结构多元的社会中错误衡量对齐——在这些社会中,分歧可能反映文化、历史、语言、地区或规范层面的解释,而非标注噪声。我们将此失败称为偏好有效性压缩,即多个多元有效的回答选项被压缩为单一优化目标。以马来西亚为诊断场景,我们通过偏好事件(将提示、回答及跨解释框架的可接受性判断联系起来)分析RLHF风格的反馈聚合。在来自20名参与者的321个偏好事件和107个三人标注提示中,79%的提示包含多个多数支持的回答(这些回答在单一胜者聚合中被丢弃),且当所有多数支持选项被考虑时,顶层回答之间的明显优势差距缩小。参与者经常选择多个可接受回答,而被丢弃的回答明显反映了连贯的本地、实践或文化框架。这些发现表明,该语料库中的多数聚合衡量的是argmax可接受性而非多元对齐。我们将此视为测量有效性问题,并认为未来的对齐方法应满足有效性保持一致性,即在多元有效的解释框架下保持稳定,而非将其压缩为单一奖励目标。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:11

# 人类反馈中的偏好有效性压缩
来源: https://arxiv.org/html/2606.10569
Dorcas Chia Ern Chua¹,Karen Myn Hui Lee¹,Jia Yue Tan¹,Zhen Xue Gue³,∘
Norzalena Abdul Hamid¹,Azima Binti Azmi¹,Keat Mei Yeong¹,Aizat Izyani binti Mujab¹,Hafsah Noor Azam¹,Chee Guo Khoo⁴,∘
Han Ying Lim¹,♢
Chee Seng Chan²,♢

∘实习生
♢项目负责人
¹YTL AI Labs
²马来亚大学
³Monash University Malaysia
⁴马来西亚沙捞越大学

###### 摘要

标准的人类反馈强化学习(RLHF)流程通常将异构的人类判断简化为单一的标量奖励目标。我们认为,这种简化可能在结构多元的社会中错误衡量对齐,因为分歧可能反映文化、历史、语言、地域或规范上的解释,而非注释噪声。我们将这种失败称为 *Preference-Validity Compression*(偏好有效性压缩),即多个多元有效的响应选项被压缩为一个单一的优化目标。以马来西亚作为诊断背景,我们通过 *preference events*(偏好事件)分析RLHF风格的反馈聚合,这些事件将提示、响应和跨解释框架的可接受性判断联系起来。在来自20名参与者的321个偏好事件和107个三人标注的提示中,79%的提示包含多个多数支持的响应,而这些响应在单一获胜者聚合中会被丢弃;当考虑所有多数支持的选项时,顶级响应之间的表观优势差距会缩小。参与者经常选择多个可接受的响应,而被丢弃的响应明显反映了连贯的地方、实践或文化框架。这些发现表明,该语料库中的多数聚合衡量的是 $\arg\max$ 可接受性,而非多元对齐。我们将此视为一个测量效度问题,并认为未来的对齐方法应满足 *Validity-Preserving Consistency*(有效性保持一致性),即在多元有效的解释框架之间保持稳定,而不是将它们压缩为一个单一的奖励目标。

隐藏共识:人类反馈中的偏好有效性压缩

Dorcas Chia Ern Chua¹,Karen Myn Hui Lee¹,Jia Yue Tan¹,Zhen Xue Gue³,∘<sup>†</sup>,Norzalena Abdul Hamid¹,Azima Binti Azmi¹,Keat Mei Yeong¹,Aizat Izyani binti Mujab¹,Hafsah Noor Azam¹,Chee Guo Khoo⁴,∘<sup>†</sup>,Han Ying Lim¹,♢,Chee Seng Chan²,♢

<sup>∘</sup>实习生 <sup>♢</sup>项目负责人
<sup>†</sup>感谢:马来亚大学实习生。
<sup>†</sup>感谢:YTL AI Labs实习生。
¹YTL AI Labs
²马来亚大学
³Monash University Malaysia
⁴马来西亚沙捞越大学

## 1 引言

人类反馈强化学习(RLHF)通过将人类对模型输出的判断转换为标量奖励信号来对齐大型语言模型 (Christiano et al., 2017) (https://arxiv.org/html/2606.10569#bib.bib1); (Ouyang et al., 2022) (https://arxiv.org/html/2606.10569#bib.bib3)。这种标量化对优化有用,但也带来了测量问题。标准奖励建模通常将汇总的偏好比较视为对共享隐含偏好函数的观察,而分歧则被吸收为随机变化。当分歧反映噪声或注释错误时,这一假设是合理的。但当分歧反映出对于可接受响应的多种有效解释时,这一假设就会变得脆弱。

图 1:*Preference-Validity Compression*(偏好有效性压缩)。单一获胜者聚合选择“1957”作为奖励目标,而偏好事件视图则保留了“1957”和“1963”在不同框架下的可接受性。
这种区别对于多元对齐很重要。先前的研究表明,标注者分歧可以编码有意义的语义、道德和文化差异,而非错误 (Aroyo and Welty, 2015) (https://arxiv.org/html/2606.10569#bib.bib4); (Sorensen et al., 2024) (https://arxiv.org/html/2606.10569#bib.bib12)。其他工作表明,聚合的奖励模型可能收敛于主导偏好模式,并将狭窄的标注者群体编码为普遍偏好 (Casper et al., 2023) (https://arxiv.org/html/2606.10569#bib.bib13); (Santurkar et al., 2023) (https://arxiv.org/html/2606.10569#bib.bib14)。我们将此视为一个对齐-测量问题。失败的根源不在于分歧本身,而在于将异构可接受性判断转化为一个奖励目标的聚合步骤。当反馈被简化为单一目标时,系统不仅仅是总结了人类偏好,它还决定了哪些可接受的响应仍对优化可见。

我们将这种失败称为 *Preference-Validity Compression*(偏好有效性压缩)。它发生在多个可接受的响应选项被压缩成一个主导优化目标时。图1 (https://arxiv.org/html/2606.10569#S1.F1) 用马来西亚独立的问题说明了这一想法。“1957”框架反映了马来亚联邦的独立,而“1963”框架反映了马来西亚的成立,涉及当时的马来亚、沙巴、砂拉越和新加坡。单一的奖励目标可能保留一个框架,同时压制另一个在历史上仍有意义的框架。

我们使用马来西亚作为诊断背景,因为它具有结构多元性。对可接受的模型响应的分歧可能反映共存的文化、历史、语言、宗教和地区解释框架,而非随机的标注者噪声。“马来西亚用户”这一类别不应被假定为对应单一的偏好信号。我们的目标不是估计国家的偏好分布或训练奖励模型,而是检验单一获胜者聚合是否能在结构多元的环境中隐藏被支持的替代方案。

我们将人类反馈分析为 *preference event*(偏好事件),即由提示、模型响应和评估者的可接受性决策所形成的上下文相关判断,并受到交叉的文化、历史、语言和规范框架的调节。在我们的诊断研究中,20名马来西亚参与者在107个三人标注的提示中,对每个提示的三个响应判断为可接受或不可接受。这种诱导设计允许多元可接受性在聚合之前显现,并使我们能够检验支持的响应集在事件层面是否为非单元素。

结果表明,这种测量问题在实践中是可观察的。在321个偏好事件中,79%的提示包含至少一个额外的响应,该响应达到了多数接受阈值,但会被 $\arg\max$ 聚合丢弃。此外,单一获胜者聚合夸大了获胜响应的优势:当考虑所有多数支持的响应时,顶级响应之间的差距显著缩小。在标注者层面,接受行为也不符合每个提示一个稳定响应的模式,这表明评估者经常将多个响应视为同时有效,而非互斥。定性的隐藏共识例子进一步表明,被丢弃的响应可以反映连贯的地方、实践或文化框架。

这些发现将多元对齐重新定义为测量效度问题,其中聚合协议本身成为隐藏的瓶颈,当它将多元有效的解释压缩为单一奖励目标时。我们认为,未来的对齐方法应满足 *Validity-Preserving Consistency*(有效性保持一致性)。对齐应在多元有效的解释框架之间保持稳定,而不是将其压缩为占主导地位的奖励目标。

本文做出三项贡献。

- • 我们识别了 RLHF 风格反馈聚合中的一个测量失败,即单一的奖励目标可以衡量 $\arg\max$ 可接受性,但被解释为多元对齐。
- • 我们将这种失败形式化为 *Preference-Validity Compression*(偏好有效性压缩),并引入 *preference event*(偏好事件)作为诊断单元,将可接受性判断与提示、响应、解释框架和评估者背景联系起来。
- • 使用马来西亚作为诊断背景,我们提供了实证证据,表明多元可接受性在响应集和标注者层面都持续存在,导致单一获胜者聚合在本语料库中错误衡量了支持响应的广度和结构。

## 2 相关工作

### 2.1 标注者分歧与偏好聚合

NLP 研究已经挑战了标注者分歧仅仅是测量误差的观点。分歧可以反映语义歧义、主观解释和价值多元性,而非噪声 (Aroyo and Welty, 2015) (https://arxiv.org/html/2606.10569#bib.bib4); (Basile et al., 2021) (https://arxiv.org/html/2606.10569#bib.bib5)。对于 RLHF,聚合多元有效的分歧决定了哪些解释对学习系统仍然可见。

标准的 RLHF 流程通常收集人类偏好比较,将奖励模型拟合到汇总的判断上,并针对学习的标量奖励进行优化。最近的工作挑战了这一单一奖励假设。PRISM 表明,对齐偏好是主观且依赖于上下文的,涉及来自 75 个国家的 1,500 名参与者 (Kirk et al., 2024) (https://arxiv.org/html/2606.10569#bib.bib9)。Heterogeneous RLHF 和 MaxMin-RLHF 研究个性化、聚合以及针对多样化偏好的群体感知目标 (Park et al., 2024) (https://arxiv.org/html/2606.10569#bib.bib2); (Chakraborty et al., 2024) (https://arxiv.org/html/2606.10569#bib.bib6)。Operationalizing Pluralistic Values 进一步表明,人口构成、分歧处理、评分量表和优化选择可以改变学习到的模型行为 (Ali et al., 2026) (https://arxiv.org/html/2606.10569#bib.bib10)。先前关于注释聚合的工作表明,多数投票可能低估社会人口群体,并将代表性偏差嵌入下游模型 (Prabhakaran et al., 2021) (https://arxiv.org/html/2606.10569#bib.bib7),社会选择视角将偏好聚合视为规范性设计选择,而非中立步骤 (Conitzer et al., 2024) (https://arxiv.org/html/2606.10569#bib.bib11)。这些工作确立了偏好异质性对齐的重要性,但多样性感知的对齐仍然可能变成非多元的,如果它最终将可接受的替代方案压缩成选定的目标。仍未解决的是,当同一提示下多个响应可接受时,聚合目标实际上衡量了什么。

### 2.2 跨文化对齐与马来西亚代表性

对狭窄偏好表征的担忧建立在对 WEIRD 偏差的批评之上,即狭窄的群体通常被视为默认的人类主体 (Henrich et al., 2010) (https://arxiv.org/html/2606.10569#bib.bib15)。最近的对齐工作主张更广泛的社区参与 (Mihalcea et al., 2025) (https://arxiv.org/html/2606.10569#bib.bib16)。然而,对于 RLHF,仅包容是不够的。如果分歧被压缩为一个标量目标,多样化的标注者群体仍然可能产生非多元的奖励模型。

实证研究表明,LLM 行为通常反映主导文化框架。多语言 LLM 即使在使用其他语言查询时,也可能产生更接近英语文化背景的响应,并且这种趋势在 RLHF 风格的对齐后可能会增加 (Wang et al., 2024) (https://arxiv.org/html/2606.10569#bib.bib17)。从我们的角度来看,这种模式仅部分源于预训练覆盖的问题。当奖励目标偏向一个主导框架时,其他本地有效的解释就变得不可见。因此,更深层的对齐风险不仅仅在于代表性不足问题,因为当聚合将多元可接受性压缩为单一优化目标时,得到支持的非获胜者解释可能完全消失。

最近的东南亚基准测试表明,马来西亚的语言和文化表征仍然具有挑战性。MalayMMLU 研究马来语中的马来西亚知识评估 (Poh et al., 2024) (https://arxiv.org/html/2606.10569#bib.bib18),而 MyCulture 则研究了马来西亚文化知识以及将国家视为同质文化单元的风险 (Hew et al., 2025) (https://arxiv.org/html/2606.10569#bib.bib19)。这些基准测试询问模型是否知道马来西亚的事实;我们则询问人类反馈能否保留多元的马来西亚可接受性判断。模型可能知道相关事实,但仍然只对齐于一个主导的评估框架——这是基准测试文献目前尚未衡量的失败。

## 3 正式定义 Preference-Validity Compression

设 $x$ 表示一个提示,$Y_x = \{y_1, \ldots, y_m\}$ 表示候选响应集。设 $u_i(x, y) \in \{0, 1\}$ 表示评估者 $i$ 是否认为响应 $y$ 对于提示 $x$ 是可接受的。由于评估者可能接受多个响应,$u_i(x, y)$ 不是强制选择排名。标准标量聚合估计可接受性为

$$A(x, y) = \frac{1}{n} \sum_{i=1}^{n} u_i(x, y),$$ (1)

且单一获胜者目标选择

$$y^* \in \arg\max_{y \in Y_x} A(x, y).$$ (2)

当多个响应并列时,$y^*$ 表示在任意或实现特定的打破平局规则下选出的一个获胜者。

多元对齐需要不同的测量对象。设 $V(x) \subseteq Y_x$ 表示提示 $x$ 的多元有效响应集。如果响应 $y$ 在合法的文化、历史、语言、地区或规范框架下是可接受的,则它属于 $V(x)$,即使它不是排名最高的响应。因此,$V(x)$ 是一个有效性集,而非频率排名。在我们的实证研究中,我们不直接观察 $V(x)$。我们通过多数支持的可接受性模式和定性论证来诊断它。

我们将 *Preference-Validity Compression*(偏好有效性压缩)定义为这样的失败模式:标量聚合将多元有效集 $V(x)$ 替换为单一获胜者目标 $y^*$。失败并不在于较低频率的响应总是有效的。失败在于,标量聚合本身无法区分无效的非获胜者和有效的非获胜者。一个响应可能从优化目标中消失,不是因为它无效,而是因为聚合运算符只保留了一个选中的响应。

###### 命题 1.

如果一个提示存在多于一个多元有效的响应,那么单一获胜者多数目标无法将多元有效性作为一个集合保留。它将 $V(x)$ 映射到一个响应,并从优化目标中省略了有效的非获胜者响应。

证明见附录 A (https://arxiv.org/html/2606.10569#A1)。该命题指出了一个测量局限性,而非声称每个非获胜者响应都是有效的。单一的标量排名无法揭示非获胜者响应是无效的还是在另一个框架下是有效的。我们的实证研究通过第 6 节 (https://arxiv.org/html/2606.10569#S6) 中的三个信号来检验这种失败:接受响应的多重性、多数压缩损失以及非固定参与者的模。

## 4 马来西亚作为诊断背景

我们使用马来西亚作为 Preference-Validity Compression(偏好有效性压缩)的诊断背景,因为其结构多元性挑战了将汇总的人口反馈简化为单一偏好信号的假设。马来西亚社会通常通过广泛的民族语言类别来描述:“马来人”、“华人”、“印度人”和“其他”,这涵盖了半岛马来西亚、沙巴和砂拉越的多样化原住民社区 (Department of Statistics Malaysia, 2026) (https://arxiv.org/html/2606.10569#bib.bib20)。这些类别是历史建构的,但在教育、经济组织、语言政策和政治代表中仍然具有社会和制度上的显著性。我们使用马来西亚并非为了声明其多元性是独特的,而是因为它使得该问题在实证上可观察。其他结构多元的社会也可能表现出可压缩分歧,但在单一国家案例中,少数群体的有效性可能被更大的多数群体掩盖。马来西亚案例的价值在于,它在一个诊断语料库中提供了足够紧凑的设置来检验单元素多数目标是否掩盖了现有的有效性。

在我们的语境中,“结构多元性”指的是共存的社会框架,这些框架为相同的提示产生关于可接受性的正交判断。这与仅仅存在变化不同。在结构多元的环境中,分歧更可能反映连贯的替代框架,而不是独立的偏好差异。因此,马来西亚作为诊断案例,因为如果一个聚合方法在这样一个设置中失败,那么在较弱的分歧来源下,相同的问题也可能发生。相反,如果聚合在马来西亚中显得具有代表性,那么它很可能在其他地方也压制了有效的替代框架。因此,我们的范围声明如下:我们使用马来西亚来诊断一种聚合失败,该失败可能普遍出现在结构多元的环境中。我们并不主张每个马来西亚提示都表现出多元可接受性,也不声称我们的诊断语料库反映了马来西亚全国的偏好分布。经验主张更为有限:在这个语料库中,单一获胜者聚合掩盖了同时得到支持的有效响应。

相似文章

通过改变理性度来缓解RLHF中的认知偏差

arXiv cs.AI

本文提出了一种通过基于大型语言模型(LLM)对标注者可靠性的评估来动态调整理性度参数,从而缓解人类反馈强化学习(RLHF)中认知偏差的方法。

对齐篡改:人类反馈强化学习如何被利用来优化失调偏见

Hugging Face Daily Papers

本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。

人们到底想从AI得到什么?映射偏好多元性

arXiv cs.CL

本文分析了来自75个国家的1500份开放式回答,揭示了人们对AI的偏好多样且常常相互冲突,其中真实是唯一被广泛需求的价值(49%),但定义方式却互不兼容。研究认为,当前的RLHF方法将这些多元偏好扁平化为通用奖励模型,延续了认知暴力。