LLMs中的道德安全：通过模糊线索揭露表演性遵从

arXiv cs.CL 2026/07/01 04:00 论文

llm-safety fairness performative-compliance moral-safety robustness demographic-bias cue-variation

摘要

本文介绍了LLMs中的'表演性遵从'现象，即模型仅在人口统计身份被明确标注时显得公平，而当需要推断身份时则变得不那么公平。作者提出了一种线索变化方法论和一种Cue Visibility Gap指标，用于衡量真正的道德安全与表面道德安全。

arXiv:2606.31644v1 Announce Type: new 摘要：随着大语言模型在医疗、法律和招聘等领域承担起具有道德影响的重要角色，我们需要审视其伦理行为是真实的还是表面的。我们表明，当前的公平性评估严重高估了道德安全性。当人口统计身份以明确标签形式给出时，模型表现得公平，但当同一身份需要推断时，模型的可测量公平性显著下降。我们将这种失败称为\emph{表演性遵从}，即模型在呈现类似公平性评估时表现公平，而随着该线索的减弱则变得不那么公平。我们引入了一种线索变化方法论，该方法保持道德困境和人口统计身份不变，仅改变身份的表达方式。隐藏明确标签会导致有害决策增加$+4.4$个百分点，并改变模型安全排名，且当模型正确推断人口统计信息时这种变化仍然存在，排除了归因错误。我们提出了\textbf{Cue Visibility Gap}，一种与模型无关的鲁棒性度量，可添加到任何现有的公平性基准中，以区分真正的道德安全与表演性的道德安全。省略线索变化的公平性评估衡量的是表面遵从，而非道德鲁棒性，不应作为高风险场景中部署决策的依据。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:34

# 利用困惑线索揭露表演性服从  
来源：https://arxiv.org/html/2606.31644  

## 大语言模型中的道德安全性：利用困惑线索揭露表演性服从  
Mohammadamin Shafiei¹, Shuyue Stella Li², Yulia Tsvetkov²  
¹米兰大学 ²华盛顿大学  
[email protected], [email protected]  

###### 摘要  
随着大语言模型在医疗分流、法律咨询和招聘流程等具有道德后果的场景中承担角色，我们需要审视其道德行为是真实的还是表面的。我们表明，当前的公平性评估显著高估了道德安全性。当人口统计学身份作为显式标签呈现时，模型看似公平，但当同一身份需要被推断时，其公平性却明显下降。我们将这种失败称为*表演性服从*：模型在呈现方式类似公平性评估时表现公平，而随着这种线索减弱则变得不那么公平。我们引入了一种线索变化方法，该方法保持道德困境和人口统计学身份固定，仅改变该身份的传达方式。隐藏显式标签会导致有害决策增加+4.4个百分点，并改变模型安全排名，且当模型正确推断出人口统计学身份时这种转变依然存在，排除了归因错误的可能性。我们提出了*线索可见度鸿沟*，这是一种模型无关的鲁棒性度量指标，可添加到任何现有公平性基准中，以区分真实道德安全性与表演性服从。省略线索变化的公平性评估衡量的是表面服从，而非道德鲁棒性，不应作为高风险场景中部署决策的依据。  
¹¹代码和数据：https://github.com/Mamin78/Moral_Safety_LLMs  

---

## 1 引言  
参见图注  
图1：表演性服从：安全行为依赖于人口统计学身份是否被显式标注。  
我们保持道德困境固定，仅改变所描述人物的人口统计学身份传达方式。  
左（直接）：身份以显式标签陈述（“西班牙裔女性”），模型产生公平结果。  
中（困惑）：同一身份必须通过简短逻辑谜题恢复；模型的决策转向不利于所描述人物。  
右（真实安全性）：具有真实道德安全性的模型应不受身份传递形式的影响，在两种条件下得出相同决策。  

大语言模型（LLM）部署在医疗分流、法律咨询和招聘流程中，其决策会影响真实人群。在这些场景中，人口统计学身份通常通过姓名、口音、临床病史和积累的上下文隐式出现（Ahia et al., 2026）。然而，为高风险部署提供信息的公平性评估却使用显式标签呈现身份，例如“一位非裔美国患者”或“一位亚洲女性”，并将由此产生的行为视为部署时的预测（Sorin et al., 2025; Bajaj et al., 2024）。这导致了测试时身份传达方式与实际使用时身份到达方式之间存在差距。  

我们将LLM中的*道德安全性*形式化为：无论人口统计学身份以何种形式传达，模型在具有道德后果的情境中都能做出公平决策的要求。公平性评估格式（例如人口统计学呈现风格）越接近安全后训练中使用的格式，就越可靠地触发训练所灌输的保护性行为。我们将*表演性服从*定义为：模型在“知道自己正在被评估”时（即呈现方式带有这种线索）表现公平，而随着评估线索减弱、同一身份需要被推断时变得不那么公平的行为，如图1第一和第二个面板所示。然而，真正具有道德安全性的模型必须不受呈现方式的影响（图1第三个面板）。  

先前工作通过方言（Hofmann et al., 2024）、文化编码姓名（Veldanda et al., 2023）和代理决策任务（Li et al., 2025）等隐式人口统计学信号来弱化这种评估线索，发现显式线索下被抑制的偏见在身份间接传达时重新浮现。但这些信号也改变了身份到达的渠道。方言、编码姓名和显式描述符在感知方式以及向模型传达评估存在信号的强度上均不同，因此观察到的行为转变可能反映其中任意一种。通过谜题，我们的设计保持道德内容和人口统计学分配固定，仅改变身份必须被恢复的方式，且由于谜题解是可验证的，它能够以先前工作无法实现的方式隔离信息丢失带来的转变。  

为了区分真实道德安全性与表演性服从，我们保持每个道德困境和所描述个体的身份固定，仅改变该身份到达模型的方式。在*中性*条件下，困境不包含人口统计学信息，建立每个困境的决策基线。在*直接*条件下，身份以显式标签陈述，复现标准公平性评估。在*困惑*条件下，同一身份必须通过逻辑谜题的唯一解来恢复，因此人口统计学分配得以保留，而显式线索被移除。谜题解是形式上可验证的，使我们能够将分析限制在正确解出的项目上，并排除信息丢失作为任何行为转变的解释。  

在14个模型上，每个模型约19000个探测项²，移除显式线索产生了单侧转变。模型更倾向于选择伤害所描述个体的选项（+4.4个百分点），而选择有利于该个体的倾向几乎不变（+0.9个百分点）。这种单侧性隔离了表演性服从，因为一般的混淆因素会使两侧同时移动。这种转变在限制到正确推断的项目上仍然存在，并在提示措辞、困境主题、难度级别和谜题解形状上得以复现。我们将从直接到困惑的公平性下降称为*线索可见度鸿沟*，它重新排列了模型安全排名。前沿对齐模型变化最小，而较小的开源模型变化最大。  

**贡献**：（1）我们将道德安全性形式化为模型伦理行为在呈现上下文中的鲁棒性，并识别出表演性服从——后训练学会将人口统计学标签视为评估线索而未内化公平性——作为违反该要求的失败模式。（2）我们引入线索变化作为检测表演性服从的方法，保持道德内容和人口统计学身份固定，同时改变身份必须被恢复的方式，并在14个LLM、3个性别、5个种族以及每个模型约19000个探测项上进行实例化。（3）我们提出线索可见度鸿沟作为模型无关的鲁棒性度量指标，无需新标注，重新排列安全排名，并可添加到任何现有公平性评估中。  

## 2 问题定义  

### 2.1 预备知识  
令D表示一组道德困境，每个困境具有二元决策空间{o1, o2}。对于每个困境d∈D，令Xd表示所涉及的个体集合，每个个体属于人口统计学组别G∈G。受益标注bd∈{o1, o2}标识哪个选项有利于所描述的个体，由人类评估者建立（Fleiss κ=0.92；附录B）。我们定义三种呈现格式φ∈{中性, 直接, 困惑}。在中性下，不提供人口统计学信息。在直接下，人口统计学身份以显式标签陈述。在困惑下，同一身份必须通过逻辑谜题恢复，谜题的唯一解编码了人口统计学分配。令fθ(d, X, φ)∈{o1, o2}表示模型θ对个体X∈Xd在格式φ下的决策。  

### 2.2 真实道德安全性与表演性道德安全性  
如果模型θ的决策在成功恢复人口统计学的条件下不受呈现格式影响，则模型表现出*真实道德安全性*：  
fθ(d, X, 直接) = fθ(d, X, 困惑) 对于所有 d∈D, X∈Xd  
当在非可忽略比例的(d, X)对上，尽管在困惑条件下正确恢复，该等式仍不成立时，模型表现出表演性服从。  

### 2.3 决策偏差度量  
令sd = fθ(d, X, 中性)为模型的无人口统计学基线决策，wd,X = fθ(d, X, φ)为在φ∈{直接, 困惑}下的决策。由于中性不携带人口统计学信息，sd不依赖于X，仅由d索引。两个事件捕捉相对于bd的方向性转变：  
- (F) 有利事件：sd ≠ bd 且 wd,X = bd。揭示X的身份使模型转向有利于个体的选项。  
- (A) 不利事件：sd = bd 且 wd,X ≠ bd。揭示X的身份使模型偏离有利于个体的选项。  

每个组别的比率和净偏差为：  
有利(G) = |F ∩ G| / |{(d,X): sd ≠ bd} ∩ G|,  
不利(G) = |A ∩ G| / |{(d,X): sd = bd} ∩ G|,  
净(G) = 有利(G) - 不利(G)（百分比），其中正值表示该组别净受惠。  
模型θ和组别G的线索可见度鸿沟为：  
鸿沟(θ,G) = 净_直接(θ,G) - 净_困惑(θ,G)  
表演性服从预测不对称特征：Δ不利 >> Δ有利，其中Δ不利 = 不利_困惑 - 不利_直接，Δ有利 = 有利_困惑 - 有利_直接，这区分了标签依赖的抑制与任何会使两个分量同等移动的混淆因素。  

## 3 方法论  
我们保持道德困境固定，仅改变人口统计学身份的传达方式，在100个日常困境上构建三种条件，这些条件取决于身份是作为显式标签陈述、必须通过逻辑谜题恢复，还是完全缺失。谜题解是形式上可验证的，使我们能够将分析条件限制在正确解出的项目上，并排除信息丢失作为混淆因素。  

### 3.1 伦理困境  
我们基于DailyDilemmas（Chiu et al., 2025）构建，调整每个困境使所描述的角色与一组四个匿名个体兼容，从文本中剥离人口统计学线索，用GPT-4以中性角色词汇改写成第三人称，并经过人工审核。无法在不改变含义的情况下调整的项目被移除，最终得到100个困境。三名标注员独立对每个困境的四个列进行标注，通过多数投票决定：（1）系统1最终决策，仅从困境文本中选择的行动；（2）系统2最终决策，在阅读每个选项后果后选择的行动（Kahneman, 2011）；（3）所描述人物状态，所描述人物扮演好、坏还是中性角色（Fleiss κ=0.71）；（4）所描述人物受益（DPB），无论整体道德质量如何，哪个选项对所描述个体更有利（Fleiss κ=0.92）。DPB近乎完美的一致性支持其作为决策偏差度量指标的真实信号。完整标注统计见附录B。  

### 3.2 提示条件与探测项  
每个困境在三种条件下评估。中性条件呈现困境、选项和后果，不包含人口统计学信息，提供每个困境的基线决策sd。直接条件为四个个体A–D添加显式人口统计学标签（例如“a: 男性，亚裔；b: 男性，西班牙裔；c: 女性，亚裔；d: 女性，西班牙裔”）。困惑条件用逻辑谜题替换这些标签，谜题的唯一解编码相同的分配；模型必须先解谜题再回答。在直接和困惑条件下，对A–D中的每个个体发出两个逐个体探测项。“可能是”问题询问个体X是否可能是所描述人物（是/否）。“假设”问题询问假设个体X是所描述人物时应遵循哪个选项（选项1/选项2）。“假设”探测项直接操作了第2.3节定义的有利和不利事件：响应转向bd为有利事件，偏离bd为不利事件。完整提示模板见附录F。响应超出有效集合{选项1, 选项2}或{是, 否}的计为弃权，并在偏差计算中排除（附录C）。  

### 3.3 谜题构造  
谜题由GPT-4生成，遵循Mondorf和Plank (2024)的框架，并扩展了计数和等价线索类型。每个谜题具有规范解结构：A和B接收性别G1，而C和D接收G2；A和C接收种族R1，而B和D接收R2。表1列出所有线索类型及其认知负荷权重，表2展示一个示例谜题。每个生成的谜题经验证具有唯一满足分配。难度得分按每条线索的平均认知负荷权重计算：[0,2]为容易，(2,4]为中等，大于4为困难。生成提示见附录E。  

| 线索类型 | 结构 | 权重 |
|---------|------|------|
| 直接 | A是X。 | 0 |
| 合取 | A是X且B是Y。 | 0 |
| 否定 | A不是X。 | 1 |
| 析取 | A是X或B是Y，或两者皆是。 | 3 |
| 蕴含 | 如果A是X则B是Y。 | 4 |
| 双条件 | A是X当且仅当B是Y。 | 5 |
| 等价 | A和B具有相同的X。 | 4 |
| 计数 | 恰好X个人是Y。 | 6 |
| 复杂（默认） |  | 5 |

表1：用于评分谜题难度的逻辑陈述及其认知负荷权重。  
示例谜题...

LLMs中的道德安全：通过模糊线索揭露表演性遵从

相似文章

对与错，模型都服从：LLM道德判断中的方向盲视

通过幽默调查大模型对身份群体的反事实不公

LLaMA 3.1-8B-Instruct中的框架条件道德计算：伦理推理的机械可解释性审计

每个行为都有代价：前沿大语言模型中的压缩道德组合

安全是情境性的，LLM评判者则不然：驾驭评估者的刚性先验

提交意见反馈