对与错,模型都服从:LLM道德判断中的方向盲视

arXiv cs.CL 论文

摘要

本文引入了一种双向诊断方法——顺从不对称性,发现LLM在道德判断中表现出“方向盲视”:它们对有益和有害的社会提示同样顺从,而事实领域则会选择性地遵循有益纠正。该现象在多种模型和提示类型中持续存在,突显了当前LLM对齐中的一种独特失败模式。

arXiv:2606.14037v1 公告类型:新 摘要:随着语言模型在多个领域中扮演综合角色,LLM对用户反驳的反应成为一项关键的对齐属性。然而,许多现有评估将顺从视为单向的,仅衡量模型是否抵制压力,而不衡量其是否选择性地抵制压力。我们引入了顺从不对称性(A = BCR/HCR),一种双向诊断方法,比较在有益提示下的有益输出变化与在误导提示下的有害变化。在9个模型和972,000个提示条件下的回答中,我们发现这种选择性在事实判断和道德判断中有所不同:模型在事实问题上遵循有益提示多于有害提示(A = 1.58),但在道德问题上以几乎相同的速率遵循两种方向(A = 1.04)。此现象在模型家族、能力水平和提示类型中持续存在。有趣的是,我们还发现思维链提示同时放大了有益和有害顺从,而基于身份的提示则以几乎相同的幅度抑制了二者。这些结果将方向盲视的道德顺从识别为当前LLM中的一种独特失败模式,并表明对齐应针对方向校准的更新,而非仅降低顺从性。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:57

# LLM道德判断中的方向盲视
来源:https://arxiv.org/html/2606.14037
## 对错与否,模型皆从:LLM道德判断中的方向盲视

###### 摘要

随着语言模型在多个领域扮演综合性角色,LLM对用户质疑的回应成为一项关键的对齐属性。然而,许多现有评估将顺从视为单向的,测量模型是否抵制压力,但不测量其是否*有选择地*抵制压力。我们引入顺从不对称性(A=BCR/HCR),一种双向诊断指标,比较在有益助推下的有益输出变化与在误导性助推下的有害变化。在9个模型和972,000个助推条件响应中,我们发现这种选择性在事实判断和道德判断中存在差异:模型在事实问题上遵循有益助推多于有害助推(A=1.58),但在道德问题上以几乎相同的比率遵循两个方向(A=1.04)。这种现象在模型家族、能力水平和助推类型中持续存在。有趣的是,我们还发现思维链提示同时放大了有益和有害顺从,而基于身份的提示以几乎相同的幅度抑制了两者。这些结果将方向盲道德顺从识别为当前LLM中一个独特的失败模式,并表明对齐应针对方向校准的更新,而非仅仅降低顺从。

对错与否,模型皆从:LLM道德判断中的方向盲视

Jihye Kim Jeffrey Flanigan加州大学圣克鲁兹分校
{jkim829, jmflanig}@ucsc.edu

## 1 引言

大型语言模型越来越多地应用于用户不仅仅是提问,而是质疑、纠正和施压让模型重新考虑其答案的角色。在这样的场景中,可靠性不仅取决于模型的初始准确性,还取决于当外部信号与原始判断冲突时,其是否有选择性地更新。拒绝所有压力的模型可能是固执的;接受所有压力的模型可能是轻信的。可靠的行为需要接受有益的纠正,同时拒绝有误导性的影响。

这个问题在模型输出可能影响用户信念、决策或行动的领域中尤为重要。从临床决策支持到道德咨询,用户通常会要求模型修订、辩护或重新考虑其答案。不加批判的同意可能会强化用户的框架,而不是提供独立的指导,尤其是在涉及人际冲突、道德困境、自残或虐待的场景中。因此,关键问题不仅仅是模型是否抵制社会压力,而是模型是否*有选择地*抵制。

我们表明,这种选择性将事实判断和道德判断区分开来。在9个模型和972,000个助推条件响应中,模型在事实领域中对社会压力进行方向性过滤,但在道德领域中却丧失了这种能力。在事实领域,当被推往正确答案时,模型比被推往错误答案时更频繁地更新其答案。在道德领域,这种选择性消失:无论压力是指向基准定义的规范性答案还是偏离它,模型都以几乎相同的比率顺从(图1 (https://arxiv.org/html/2606.14037#S1.F1))。这种崩溃在模型家族、能力水平、助推类型以及排除低一致性项目的模型共识项中持续存在。

参见图注图 1:道德判断更易翻转且方向盲:有益助推下的翻转与误导性助推下的翻转相等。我们将模型初始答案与添加社会助推后的答案进行比较,称为翻转。在事实领域,有益助推比误导性助推引发更多翻转(40% vs. 32%;平均模型级 A=1.58),显示出方向选择性。在道德领域,两种助推类型以几乎相同的比率引发翻转(37% ≈ 37%;平均模型级 A=1.04):无论压力是指向基准定义的答案还是偏离它,模型都顺从。这一失败与谄媚有关——即LLM倾向于与感知到的用户偏好一致,无论准确性如何 [Perez等人,2023 (https://arxiv.org/html/2606.14037#bib.bib16); Sharma等人,2024 (https://arxiv.org/html/2606.14037#bib.bib13)]——但在关键方面有所不同。谄媚通常被衡量为一个幅度问题:模型在多大程度上遵循误导性压力。我们研究的是一个方向问题:模型能否区分改善其答案的压力和降低其答案的压力。很少改变答案的模型和有选择性改变答案的模型在单向评估下可能看起来相似,但它们代表了不同的可靠性特征。

为了使这种区别可见,我们引入了**顺从不对称性**,A=BCR/HCR,一种双向诊断指标,比较在有益助推下的有益修正与在误导性助推下的有害翻转。BCR,有益顺从率,衡量当助推指向基准定义的答案时,模型纠正初始错误答案的频率;HCR,有害顺从率,衡量当助推指向偏离基准答案时,模型放弃初始正确答案的频率。A>1 的值表示方向选择性,而 A≈1 表示方向盲顺从。

我们专注于社会助推,因为它们添加了背书而没有添加任务特定的证据。**权威助推**援引专家背书,而**从众助推**援引多数共识 [Cialdini, 2006 (https://arxiv.org/html/2606.14037#bib.bib31)];两者都没有解释答案为什么正确。这种设计使我们能够区分基于内容的更新和由社会引起的顺从:模型必须决定是否将社会背书作为可靠信号,即使它与其初始判断冲突。

我们进一步使用两种基于提示的诊断探针来测试这种崩溃是否反映了简单的推理时间推理或指令问题。思维链(CoT)提示测试明确的推理是否帮助模型恢复方向性评估,而上下文身份提示(CIP)测试指示模型独立于外部共识进行评估是否能在不抑制有益修正的情况下减少有害顺从。这两种探针都改变了顺从幅度,但没有改变方向性:CoT同时放大了有益和有害顺从,而CIP以几乎相同的幅度抑制了两者。这些结果表明,对齐目标不是更低的顺从,而是方向校准的更新。

#### 贡献

首先,我们引入了**顺从不对称性**(A=BCR/HCR),一种双向诊断指标,通过比较在有益助推下的有益修正与在误导性助推下的有害翻转,区分校准的更新与无差别的顺从。

其次,在9个模型和972,000个助推条件响应中,我们表明方向选择性区分了事实判断和道德判断。事实判断显示出更高的有益顺从而非有害顺从(A=1.58),而道德判断在模型家族、能力水平、助推类型以及排除低一致性项目的模型共识项中崩溃为方向盲顺从(A=1.04)。

第三,我们使用CoT和CIP作为诊断探针,并表明提示改变了顺从幅度,但没有恢复方向性。CoT同时放大了有益和有害顺从,而CIP以几乎相同的幅度抑制了两者,这表明方向校准的更新需要的不仅仅是使模型对社会压力更敏感或更不敏感。

## 2 相关工作

#### 谄媚、说服与社会影响。

谄媚——LLM倾向于与感知到的用户偏好一致,无论事实准确性如何——已在多个模型家族中得到记录 [Perez等人,2023 (https://arxiv.org/html/2606.14037#bib.bib16); Sharma等人,2024 (https://arxiv.org/html/2606.14037#bib.bib13); Wei等人,2023 (https://arxiv.org/html/2606.14037#bib.bib17)]。更广泛地说,LLM的信念和立场可能在说服性互动、错误信息、同伴压力和社会顺从线索下发生转变 [Xu等人,2024 (https://arxiv.org/html/2606.14037#bib.bib12); Tan等人,2025 (https://arxiv.org/html/2606.14037#bib.bib30); Mehdizadeh和Hilbert,2025 (https://arxiv.org/html/2606.14037#bib.bib15); Zhang和Chen,2025 (https://arxiv.org/html/2606.14037#bib.bib14)]。这些文献大多将顺从衡量为一个幅度问题:模型在多大程度上遵循误导性压力。我们研究的是方向互补问题:模型是否对改善其答案的压力比对降低其答案的压力更敏感。

最近的工作已经开始研究抵抗和适应性两个方面。Tan等人 [2025 (https://arxiv.org/html/2606.14037#bib.bib30)] 引入了一个针对知识和安全领域的说服性对话的双向框架,而Mehdizadeh和Hilbert [2025 (https://arxiv.org/html/2606.14037#bib.bib15)] 研究了多智能体网络中同伴压力下的方向依赖不对称性。这些工作表明,可靠的行为既需要对误导性压力的鲁棒性,也需要对有效修正的接受性——但两者都没有在同一设计下比较事实和道德领域。我们的工作是研究这种双向选择性本身是否依赖于领域,并表明模型在事实判断中保留了它,但在道德判断中完全丧失了。

#### 框架和扰动下的道德脆弱性。

先前的工作表明,LLM的道德判断在扰动下是不稳定的。Scherrer等人 [2023 (https://arxiv.org/html/2606.14037#bib.bib33)] 表明,模型对道德场景的响应随问题措辞而变化,尤其是在模糊案例中。Cheung等人 [2025 (https://arxiv.org/html/2606.14037#bib.bib35)] 表明,LLM在道德决策中表现出放大的认知偏见,包括可以翻转道德决策的遗漏偏见和是-否框架效应。其他工作发现,道德推理可以在不同的伦理理论、价值框架和框架条件下发生变化 [Ganguli等人,2023 (https://arxiv.org/html/2606.14037#bib.bib20); Liu等人,2024 (https://arxiv.org/html/2606.14037#bib.bib8)]。Huang等人 [2024 (https://arxiv.org/html/2606.14037#bib.bib3)] 进一步表明,道德决策可以在直接的社会说服下发生变化,表明道德输出不仅容易受到提示框架的影响,也容易受到人际压力的影响。这些研究确立了道德脆弱性,但主要考察了道德判断在替代框架或提示情境下如何改变。

我们的贡献是测试一种不同种类的脆弱性:模型是否使用社会压力的*方向*。一个事实参考条件使我们能够将道德特定的不稳定性与一般扰动敏感性分开,而双向助推使我们能够区分校准的更新与无差别的顺从。这种组合揭示了道德失败不仅在幅度上更大,而且在性质上也不同:事实顺从随着能力提高而变得更有选择性,而道德顺从仍然近乎方向盲。

#### 关于道德不稳定性的并行工作。

与我们投稿的同时,van Nuenen和Sachdeva [2026 (https://arxiv.org/html/2606.14037#bib.bib1)] 使用Reddit AITA场景记录了多种扰动类型下的系统性道德不稳定性。我们的工作是互补的,但侧重于可靠性的不同方面。我们不是测试道德场景内的多种扰动,而是在事实和道德领域使用相同的社会压力干预,并测量有益和有害两个方向。这种设计揭示了一个领域特定的方向选择性崩溃,这是单领域扰动研究无法观察到的。

## 3 研究概述

为了测试LLM是否对选择性社会压力做出反应,我们运行了一个大规模因子实验,交叉了2个领域、2种助推类型、3个强度级别、2个提示方向以及3个提示条件,跨越9个模型,产生了972,000个助推条件响应。这种设计使我们能够测量模型在压力下是否改变其答案,以及当压力指向基准答案时是否比指向偏离基准答案时更频繁地改变。数据集、提示、助推模板和统计程序的完整细节参见附录A (https://arxiv.org/html/2606.14037#A1)。

#### 领域。

为了确定社会压力脆弱性是特定于道德判断,还是反映了LLM输出的一般属性,我们在相同的实验设计中比较了事实和道德问题。事实领域作为参考条件,因为其答案在外部是可验证的,使我们能够测试模型是否可以使用正确性来过滤社会信号。我们从TruthfulQA [Lin等人,2022 (https://arxiv.org/html/2606.14037#bib.bib25)] 和MMLU [Hendrycks等人,2021b (https://arxiv.org/html/2606.14037#bib.bib24)] 中提取事实项目。

为了构建道德领域,我们从ETHICS [Hendrycks等人,2021a (https://arxiv.org/html/2606.14037#bib.bib23)] 中抽取样本,包括常识道德、道义论、公正和美德伦理。我们将ETHICS标签作为基准定义的规范性参考,以测量社会压力是否将模型移向或远离基准答案。为了确保事实和道德领域直接可比,所有问题都格式化为二选一(A/B)项目,具有50:50的类别平衡,使得相同的HCR/BCR指标可以跨领域应用。

#### 社会助推。

为了在不添加任务特定证据的情况下操作化社会压力,我们使用两种助推类型:**权威助推**,援引专家背书;以及**从众助推**,援引多数共识 [Cialdini, 2006 (https://arxiv.org/html/2606.14037#bib.bib31)]。每种助推以两个方向应用:**有益助推**指向基准答案,而**误导性助推**指向偏离基准答案。为了验证效果随语义压力而不是单一模板选择而缩放,我们在弱、中、强模板之间变化助推强度。

#### 测量顺从。

为了区分校准的更新与无差别的顺从,我们双向测量顺从。**翻转**发生在助推改变模型响应时。**有害顺从率(HCR)**是模型在误导性助推下放弃正确答案的比率;**有益顺从率(BCR)**是模型在有益助推下纠正错误答案的比率。它们的比率,**顺从不对称性** A=BCR/HCR,衡量方向选择性:A>1 表示选择性更新,而 A≈1 表示方向盲顺从。

#### 提示缓解措施。

为了测试方向盲是否可以在推理时间减少,我们使用两种基于提示的诊断探针。思维链(CoT)提示 [Wei等人,2022 (https://arxiv.org/html/2606.14037#bib.bib18)] 在最终答案之前引出简要推理,而上下文身份提示(CIP)指示模型独立于外部共识评估问题。两者都在相同的因子设计内应用,使我们能够测试提示是否改变有害顺从、有益顺从或两者之间的不对称性。附加动机和提示细节在附录A.6 (https://arxiv.org/html/2606.14037#A1.SS6) 中提供。

#### 模型。

我们评估了9个模型,跨越多个家族和能力水平,包括Ll

相似文章

大语言模型可通过正确提示更好地捕捉人类判断

arXiv cs.CL

本文提出了一些简单的提示策略,帮助大语言模型更好地捕捉人类判断的完整分布,从而在道德场景和信念方面提升与人类的对齐效果。作者表明,让模型报告标准差和响应比例,同时确保场景清晰度,能够获得与人类反应更一致的结果。

审计多模态LLM评分器:临床序数评分中的中央趋势偏差

Hugging Face Daily Papers

本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。

基于认识论权利的LLM二阶偏见评估

arXiv cs.CL

本文介绍了“二阶偏见”,即LLM在判断有偏见内容时所表现出的偏见,并提出了一种基于认识论权利的推理任务来评估它。实验表明,该任务能够规避安全护栏,并揭示LLM评判者中系统性的群体偏见。