通过改变理性度来缓解RLHF中的认知偏差
摘要
本文提出了一种通过基于大型语言模型(LLM)对标注者可靠性的评估来动态调整理性度参数,从而缓解人类反馈强化学习(RLHF)中认知偏差的方法。
arXiv:2605.06895v1 公告类型:新发布
摘要:我们如何让模型对甚至是不完美的人类反馈保持鲁棒性?在人类反馈强化学习(RLHF)中,人类对模型输出的偏好被用于训练奖励模型,该模型为响应分配标量值。由于这些奖励是从成对比较中推断出来的,这种学习依赖于潜在奖励差异与观察到的偏好之间的假设关系,通常使用玻尔兹曼(Boltzmann)公式进行建模,其中理性度参数 beta 用于说明偏好反映奖励差异的一致性程度。在实践中,beta 通常被视为反映假设的均匀标注者可靠性的固定常数。然而,在实践中,人类反馈并非如此简单:真实的人类判断受到认知偏差的影响,导致出现情境性的、与奖励不一致行为的系统性偏差。为了解决这个问题,我们将理性度视为依赖于上下文和标注的特性。我们设计了一种方法,在奖励学习期间使用 LLM-as-judge(作为裁判的大型语言模型)来评估认知偏差可能存在的可能性,从而动态调整理性度参数 beta。这种方法有效地降低了可能反映有偏差或不可靠判断的比较的权重。实证研究表明,即使在具有强烈偏好偏差的数据集上进行微调,这种方法也能学习到一个更理性的下游模型。
查看缓存全文
缓存时间: 2026/05/11 07:08
# 通过改变理性度缓解 RLHF 中的认知偏差
来源: https://arxiv.org/html/2605.06895
Tiffany Horter 牛津大学 &Andrew Markham 牛津大学 &Niki Trigoni 牛津大学 &Serena Booth 布朗大学
###### 摘要
我们如何使模型对甚至是不完美的人类反馈具有鲁棒性?在基于人类反馈的强化学习(RLHF)中,人类对模型输出的偏好被用于训练一个奖励模型,该模型为响应分配标量值。由于这些奖励是从成对比较中推断出来的,这种学习依赖于潜在奖励差异与观察到的偏好之间的假设关系,通常使用玻尔兹曼(Boltzmann)公式建模,其中理性参数 $\beta$ 告知偏好反映奖励差异的一致程度。在实践中,$\beta$ 通常被视为反映假设的统一标注者可靠性的固定常数。然而,在实践中人类反馈并非如此简单:真实的人类判断受到认知偏差的影响,导致出现情境性的、偏离与奖励一致行为的系统性偏差。为了解决这个问题,我们将理性视为依赖于情境和标注的属性。我们设计了一种方法,在奖励学习期间使用大语言模型(LLM-as-judge)来评估认知偏差可能存在的可能性,从而动态调整理性参数 $\beta$。这种方法有效地降低了对可能反映有偏见或不可靠判断的比较的权重。实证研究表明,即使在使用具有强烈偏见偏好的数据集进行微调时,这种方法也能学习到更理性的下游模型。
## 1 引言
基于人类反馈的强化学习(RLHF)的基本前提是,人类标注者能够正确地表达他们的偏好;这一前提支撑了该技术在大语言模型(LLMs)对齐中的广泛使用。不幸的是,这一前提存在缺陷:人类反馈受到认知偏差的影响 D’Alonzo et al. (2026) (https://arxiv.org/html/2605.06895#bib.bib30)。
认知偏差的一个著名例子是林达问题(Linda problem)Tversky and Kahneman (1983) (https://arxiv.org/html/2605.06895#bib.bib34),这是一种合取谬误。人们被告知:“林达31岁,单身,直言不讳,非常聪明。她主修哲学。作为一名学生,她深切关注歧视和社会正义问题,并参加了反核示威活动。”然后他们必须评估 A:“林达是一名银行出纳员”或 B:“林达是一名银行出纳员,并积极参与女权主义运动”,哪一个更有可能。尽管从统计上讲,A 的任何子集都不大于整个集合 A,但大多数人选择了 B。
林达问题似乎微不足道,但认知偏差经常出现在高风险领域,如医学。例如,已知医生表现出锚定偏差(anchoring bias)。这可能导致医生过度重视初步诊断(例如,哮喘),并忽视可能指向更严重疾病(如心力衰竭)的后续证据。这些并非假设性的担忧:实证研究记录了临床决策中系统性的认知偏差,这对患者预后产生实际影响 Ke et al. (2024) (https://arxiv.org/html/2605.06895#bib.bib35)。当用作训练信号(如在 RLHF 中)的判断中存在认知偏差时,这些系统性偏差会嵌入到学习到的奖励模型中,导致下游模型在其输出中重现甚至放大这些偏差。
为了解决偏好数据中认知偏差的风险,我们直接干预 RLHF 目标。在标准公式中,人类偏好使用带有理性参数 $\beta$ 的玻尔兹曼理性模型(Boltzmann-rational model)进行建模,该参数通常在标注者和比较之间保持固定。这隐含地假设人类判断具有统一的可靠性。我们通过将 $\beta$ 视为*反馈依赖的*(feedback-dependent)来放宽这一假设,因为某些响应比其他响应更可能不可靠。为此,我们估计给定比较受认知偏差影响的似然,并在奖励学习期间使用此估计来动态调整 $\beta$,以降低可能带有偏见的反馈的权重;请参阅概览图 1 (https://arxiv.org/html/2605.06895#S1.F1)。这保留了人类偏好中的信息性信号,同时减少了系统性认知偏差的影响,使学习到的奖励模型和下游策略能够更好地反映底层偏好,而不是观察到的、可能带有偏见的判断。
参见图注
**图 1:减少微调 LLM 中认知偏差的干预流程概览。** 人类提供对提示(prompt)响应的偏好,例如“林达是一名银行出纳员”的例子。然后,LLM 判断每个配对的提示和响应是否可能受到认知偏差($DfD_f$)的影响。根据这一度量,我们计算 $\beta$ 的动态值。这些提示、响应和 $\beta$ 值用于学习奖励模型并微调 LLM。较高的偏差 = 较低的 $\beta$ 值。
我们在两个旨在引发认知偏差的数据集上评估了我们的方法。实证研究发现,通过评估响应偏差倾向来动态调整 $\beta$ 可以带来以下结果:
1. **偏差传播的减少。** 与没有这种干预的基线 LLMs 相比,我们的方法产生的模型显著不太可能偏好带有偏差的响应。在其中一个响应表现出认知偏差而另一个没有的成对评估中,微调后的模型更频繁地选择无偏差的响应。
2. **对偏差反馈的鲁棒性。** 我们的方法缓解了 RLHF 在有偏差的监督下的失败:向有偏差的偏好崩溃。通过降低易受偏差影响的偏好的权重,即使大量训练数据反映系统性有偏差的标注,该方法仍然有效。
3. **通用性能的保留。** 尽管在严重偏差的训练数据上运行,但干预并未降低在不相关任务上的性能,表明该方法选择性地减少了偏差,而没有牺牲模型的整体能力。
## 2 背景
### 2.1 认知偏差
RLHF 已成为一种突出的技术,用于使 LLMs 与人类偏好对齐。这通常被框定为朝着“价值对齐”进步,即确保学习到的目标忠实地反映人类意图的挑战 Russell (2019) (https://arxiv.org/html/2605.06895#bib.bib15)。然而,RLHF 采用的前提是,表达的人类偏好反映了人类的意图。但是,人类是会犯错的:我们经常犯错并受到认知偏差的影响,因此我们表达的偏好可能无法捕捉我们的意图。标准的 RLHF 流程并不区分更可靠或不太可靠的反馈形式或实例。
类似于强化学习中的奖励误指定问题,即使设计良好也可能产生意外行为,RLHF 也会从人类判断中继承系统性的非理性。一个促成因素,与先前关于奖励设计的研究一致 Booth et al. (2023) (https://arxiv.org/html/2605.06895#bib.bib20),是人类标注者在表达偏好时依赖于简化的、通常是短视的推理。标注者可能忽视长期后果或累积效应,而是依赖启发式方法。例如,前景理论表明,人类对相对损失的敏感度高于同等程度的收益,导致对结果的非对称评估 Kahneman and Tversky (2013) (https://arxiv.org/html/2605.06895#bib.bib28),这可能在偏好中表现出来。同样,时间偏好通常与指数贴现不一致;人们表现出双曲线贴现,并且不成比例地偏好即时奖励而非延迟奖励 Moore et al. (2025) (https://arxiv.org/html/2605.06895#bib.bib29)。其他偏差,如框架效应、锚定和范围不敏感性,可以进一步以与稳定或反思性意图不一致的方式塑造表达的偏好 D’Alonzo et al. (2026) (https://arxiv.org/html/2605.06895#bib.bib30); Hatgis-Kessel et al. (2025) (https://arxiv.org/html/2605.06895#bib.bib31)。
对于人类来说,认知偏差有其作用:它们通过启发式方法实现快速决策,以准确性换取速度。已有文献表明,人类在某些条件下更容易经历认知偏差,因此表现得不太理性 Macmillan-Scott and Musolesi (2023) (https://arxiv.org/html/2605.06895#bib.bib13); Kahneman (2013) (https://arxiv.org/html/2605.06895#bib.bib10),例如在时间压力下。由于 LLMs 是使用人类偏好训练的,LLMs 往往在预训练 Malberget al. (2024) (https://arxiv.org/html/2605.06895#bib.bib14) 或在微调期间(无论是通过指令微调还是 RLHF)采用我们的认知偏差 Cheung et al. (2025) (https://arxiv.org/html/2605.06895#bib.bib4); Itzhak et al. (2024) (https://arxiv.org/html/2605.06895#bib.bib8)。然而,与人类不同,LLMs 不受促使使用此类启发式方法的相同时间和资源限制。这创造了一个机会:与其将人类偏差作为决策或 RLHF 不可避免的特征来继承,我们可以设计学习程序来识别和缓解它们,使 LLMs 能够更好地逼近深思熟虑的推理。
在决策辅助设置中,匹配人类提供的反馈和避免此类反馈可能包含的系统性偏差之间存在根本张力。在这项工作中,我们假设人们持有真实的偏好,当认知偏差可能存在时,这些真实偏好在其表达的偏好中可能会被遮蔽 Hosking et al. (2024) (https://arxiv.org/html/2605.06895#bib.bib25)。我们试图学习一个人在没有偏差混淆因素的情况下会表达的底层偏好。其他人表明,在某些情况下,人们更喜欢机器不按照给出的字面偏好行事,而是按照措辞背后的意图行事 Horter et al. (2026) (https://arxiv.org/html/2605.06895#bib.bib21)。类似地,我们评估人类标注者在提供对提示和响应的偏好时可能经历的理性水平,并相应地将此偏好的权重缩放到奖励模型近似中。这在一定程度上可以解决 RLHF 的两个已知开放问题 Casper et al. (2023) (https://arxiv.org/html/2605.06895#bib.bib3),即(A)“由于时间、注意力或关心的限制,人类会犯简单的错误”和(B)“人类可能被误导,因此他们的评估可以被操纵。”
### 2.2 玻尔兹曼理性
这项工作的前提(以及更广泛的 RLHF 的前提)是,人们有一个潜在的奖励函数 $r^*$,它在其偏好上诱导一个分布,或者这是一个合理的建模假设。RLHF 的目标是从表达的偏好中近似这个奖励函数。人类决策的标准模型使用玻尔兹曼理性假设 Jeon et al. (2020) (https://arxiv.org/html/2605.06895#bib.bib9)。在该模型中,人类更有可能选择高奖励的选择,随着奖励差异的增加,这种倾向的强度也会增加。在该模型中,有一个被称为理性参数的参数 $\beta$,它控制高奖励响应被选择的一致性程度。
虽然我们提出的干预理性参数的方法可以更广泛地应用于从表达的人类选择中学习的设置(例如,从演示中学习),但我们专注于 RLHF 设置,其中奖励函数是从对模型输出的成对偏好中推断出来的。特别是,我们以候选奖励函数 $r$ 为条件,并对观察到的输出之间的比较的可能性进行建模。给定比较 $\sigma_1 \succ \sigma_2$,这产生了标准的逻辑斯谛形式:
$$
\mathds{P}(\sigma_1 \succ \sigma_2 \mid r) = \text{logistic}(\beta(r(\sigma_1) - r(\sigma_2)))
$$
在近似奖励函数的标准方法中,无论是从偏好还是其他形式的人类反馈,$\beta$ 都被视为捕获人类反馈总体噪声的固定参数。这种解释假设偏离与奖励一致的行为源于统一的随机噪声,而不是某种形式的系统性偏差。
相反,我们将潜在偏好到表达偏好的映射视为依赖于情境。我们不假设固定的 $\beta$,而是允许 $\beta$ 根据反馈的预期可靠性在不同实例之间变化。直观地说,$\beta$ 在认知偏差可能扭曲判断的设置中应该较低,而在响应更可能与潜在偏好一致时应该较高。这可以看作是根据预期保真度重新加权观察结果,目的是恢复一个更好地近似真实 $r^*$ 的奖励模型,而不是将奖励模型拟合到偏差的人工产物上。
### 2.3 理性建模的先前工作
准确建模人类的真实决策过程,即使在认知偏差下,对于有效的奖励学习也是至关重要的 Hong et al. (2023) (https://arxiv.org/html/2605.06895#bib.bib22); Knox et al. (2023) (https://arxiv.org/html/2605.06895#bib.bib12); Chan et al. (2021) (https://arxiv.org/html/2605.06895#bib.bib24)。事实上,明确地建模结构化的非理性可以提高奖励推断,超出假设完全理性行为的程度,即使有先知 Oracle Chan et al. (2021) (https://arxiv.org/html/2605.06895#bib.bib24)。
先前的方法探讨了理性如何随反馈模式(例如,比较、演示、纠正)变化 Ghosal et al. (2022) (https://arxiv.org/html/2605.06895#bib.bib7),以及如何随标注者专业知识变化 Daniels-Koch and Freedman (2022) (https://arxiv.org/html/2605.06895#bib.bib5)。其他工作通过计算方式变化 $\beta$ 参数来解决标注者理性的异质性 Yamagata et al. (2024) (https://arxiv.org/html/2605.06895#bib.bib2); Barnett et al. (2023) (https://arxiv.org/html/2605.06895#bib.bib1),尽管这些方法不同于我们的方法,因为它们不将偏差建模为情境依赖的或响应的属性。一些方法反而拟合全局 $\beta$ 以解释不同反馈类型中人类响应的系统性偏差水平 Ghosal et al. (2022) (https://arxiv.org/html/2605.06895#bib.bib7),而我们专注于响应中持有的信息,而不是其格式。其他人试图直接学习人们用来做决策的算法,通常发现纳入已知的启发式偏差可以提高学习性能 Shah et al. (2019) (https://arxiv.org/html/2605.06895#bib.bib16)。
最近的工作根据估计的标注设置的难度调整 $\beta$,例如交互信号(例如,点击、花费的时间)或模型预测的难度 Singhal et al. (2024) (https://arxiv.org/html/2605.06895#bib.bib17)。然而,这些方法将理性视为整体情境的函数,而不是针对响应提供的具体反馈,并且不评估这些调整是否缓解了认知偏差,而是关注上游奖励模型行为(例如,对事实性而不是长度的敏感性)。仅考虑情境而不是响应的问题是,它移除或降低了*所有*对偏差情境的响应的权重,并忽略了避免偏差陷阱的响应。我们怀疑条件化偏差相似文章
对齐篡改:人类反馈强化学习如何被利用来优化失调偏见
本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。
PEBS: 每个评分者的经验贝叶斯收缩用于RLHF奖励模型校准
介绍PEBS,一种用于RLHF中奖励模型校准的每个评分者经验贝叶斯收缩估计器,在PRISM上将用户内RMSE降低了超过8.5%,在PluriHarms上降低了超过9.6%。
Mental-R1:对齐LLM推理用于心理健康评估
提出认知相对策略优化(CRPO),一种用于对齐大语言模型在心理健康评估中推理的强化学习框架,在加权F1分数上比现有基线平均提高10.4个百分点。
隐藏的共识:人类反馈中的偏好有效性压缩
本文认为,标准RLHF将人类偏好标量化的做法导致多个有效解释被压缩为单一目标,从而在文化多元的社会中错误衡量对齐。通过对马来西亚数据集的分析,研究发现79%的提示词存在多个多数支持的回答,而这些回答在单一胜者聚合中被丢弃。
回溯优势校正:面向延迟感知RLHF的闭合形式V-Trace偏差校正
本文介绍了Retroactive Advantage Correction (RAC),这是一种用于延迟感知RLHF的闭合形式偏差校正方法,通过将延迟奖励排队并使用V-trace风格的裁剪残差更新重新注入,来处理异步奖励信号。