阿谀奉承的双立场评估:同意的结构与干预的界限

arXiv cs.LG 论文

摘要

本文引入了双立场评估,以测试为减少阿谀奉承而进行的激活引导是否也会抑制与事实正确陈述的同意,发现引导方向无法有区别地针对阿谀奉承的同意与事实上的同意。

arXiv:2606.11205v1 公告类型:新 摘要:激活引导可以改变大语言模型的行为,但标准评估通常不会测试减少阿谀奉承的方向是否也会抑制与事实正确陈述的同意。我们引入了双立场评估,它测试每个主题的两个立场,并将其应用于Llama-3-8B-Instruct上的质心差引导。我们发现了一种分离现象:模型在几何上不同的子空间中表示阿谀奉承的同意和事实上的同意,但引导方向平等地投影到两者上,无法有区别地针对任何一个。因此,该方向减少了与事实正确陈述(例如地球是圆的)以及阿谀奉承陈述的同意。两个激活组的所有其他静态属性都匹配,这表明行为分离源于生成动态或残差流分析无法解析的更细粒度结构。这种模式说明了一个普遍差距:可从激活中读取的表示可能无法通过其写入。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:44

# 同意结构与干预的局限性
来源:https://arxiv.org/html/2606.11205
## 对谄媚的双立场评估:同意结构与干预的局限性

###### 摘要

激活引导可以改变大语言模型的行为,但标准评估通常不检验一个减少谄媚的方向是否也会抑制对事实正确陈述的同意。我们引入了双立场评估,该方法测试每个话题的两个对立立场,并将其应用于 Llama-3-8B-Instruct 模型的质心差分引导。我们发现一种分离现象:模型将谄媚性同意与事实性同意表示在几何上不同的子空间中,但引导方向却等量地投影到这两个子空间,无法区分性地针对其中之一。因此,该方向在减少谄媚性同意的同时,也减少了对事实正确陈述(例如地球是圆的)的同意。两个激活群体的所有其他静态属性均匹配,这表明行为上的分离源于生成动态或残差流分析无法解析的更细粒度结构。这一模式揭示了一个普遍存在的差距:可以从激活中读取的表征,未必能通过激活写入。

机器学习,AI 安全

## 1 引言

激活引导已成为修改语言模型行为的常用工具。标准方法计算目标行为及其相反行为相关激活之间的质心差,然后在生成过程中添加该方向(Turner et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib1);Rimsky et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib2);Zou et al., 2023 (https://arxiv.org/html/2606.11205#bib.bib10))。

对于谄媚行为,这意味着计算同意与不同意激活之间的差值,成功的衡量标准通常是减少对用户陈述观点的同意程度(Sharma et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib25))。

现有评估衡量目标行为是否减少,但通常不检验干预是否也抑制了那些应该保留的回应——特别是,一个减少谄媚的方向是否也会减少对事实正确陈述的同意。根据定义,从同意与不同意激活计算出的方向会编码同意极性的一些成分;这种极性偏移是否特指谄媚性同意,还是更广泛地抑制了肯定性回应,这是先前评估未涉及的问题。

三种不同的假设都可能产生相同的观察结果——即谄媚项目上的同意率降低:

1. 1. 谄媚特定假设。该方向隔离了对用户的顺从。引导减少谄媚性同意,而不影响事实性同意。
2. 2. 均匀不同意假设。该方向捕捉了 YES/NO 极性,并不加区分地推动不同意。两种类型的同意同等地下降。
3. 3. 非特定但有结构假设。该方向捕捉了一般性的同意极性,但不同类型的同意具有不同的敏感性。两种同意都下降,但下降幅度不同。

在此,我们引入双立场评估来区分这三种假设。对于每个话题,模型会接触到相互矛盾的用户立场(例如“地球是平的”和“地球是圆的”),我们测量对两者的同意程度。这使我们能够进行两项诊断性测试。首先,对于存在事实正确立场的话题,我们可以检验引导是否减少了对该立场的同意(一个谄媚特定方向不应产生的效应)。其次,对于主观性话题,我们可以检验模型在基线状态下是否同时同意两个矛盾的立场,这比单一立场同意(无法区分谄媚与稳定意见)是更强烈的谄媚指标。图 1 (https://arxiv.org/html/2606.11205#S1.F1) 展示了在双立场测试下每个假设的预测。

实际意义很明显:正如我们将展示的,质心差分方向使得模型不太愿意肯定事实正确的陈述——例如,地球是圆的。此外,最近的研究表明,为表面中性行为构建的引导向量可以系统地改变越狱成功率,其幅度可由与模型拒绝方向的余弦相似度预测(Li and others, 2026 (https://arxiv.org/html/2606.11205#bib.bib9)),这使得特异性审计成为安全部署的前提条件。

请参见图注
图 1:引导特异性的三种假设。双立场评估下每种假设的预测。每个面板显示了导向前(实线)后(虚线)谄媚(Syc.)和事实(Fact.)项目的预期同意率。谄媚特定假设预测仅谄媚项目大幅下降;均匀不同意假设预测同等下降;非特定但有结构假设预测两者都下降,但幅度不同。

将此框架应用于 Llama-3-8B-Instruct,我们报告三个发现:

1. 1. 质心差分方向是非特定的:它减少了对事实正确陈述的同意,也减少了谄媚性同意,这意味着引导方向并非针对谄媚——它在更广泛地抑制同意。
2. 2. 尽管存在这种非特定性,该方向的效果却高度结构化:在匹配的基线水平下,谄媚项目对引导的敏感性远高于事实项目(下降幅度分别为 89% 和 14%),并且这种差异敏感性可以从一个简单的行为度量(双立场一致性)持续预测,在样本内(r=0.88r=0.88)和 12 个新话题上(r=0.84r=0.84)均成立。
3. 3. 子空间分析表明,模型内部区分了这两种类型的同意(它们占据激活空间中几何不同的区域),但引导方向却等量地投影到两者上。从这个意义上说,模型“知道”区别,但干预无法利用它。

我们并不声称激活引导存在根本性局限,也不认为更复杂的方法(优化方向、稀疏自编码器特征(Chalnev et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib6))、探针导出的头级干预(Genadiet al., 2026 (https://arxiv.org/html/2606.11205#bib.bib7);Izawa et al., 2026 (https://arxiv.org/html/2606.11205#bib.bib8)))必然无法通过相同的测试。我们的贡献在于评估框架、在该框架下对质心差分引导的实证描述,以及约束结构化非特定性解释必须位于何处的几何分析。

## 2 相关工作

激活引导及其局限性。向残差流添加向量可以以可解释的方式改变模型行为(Turner et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib1);Rimsky et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib2)),而对于拒绝行为,该行为似乎由一个跨模型真正具有特异性的单一方向介导(Arditi et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib3))。然而,最近的工作质疑了引导的鲁棒性和通用性:Tan et al. (2024 (https://arxiv.org/html/2606.11205#bib.bib4)) 表明,效果在不同输入间变化很大,并且分布外泛化往往脆弱。我们的双立场方法解决了一个互补的关切——不仅要看引导是否有效,还要看它是否产生意外后果。Li et al. (2024 (https://arxiv.org/html/2606.11205#bib.bib5)) 证明了通过探针识别出的真实性相关方向可以在生成过程中被因果利用;我们的结果补充道,因果利用和行为特异性是可分离的属性。

从表征到干预。Zou et al. (2023 (https://arxiv.org/html/2606.11205#bib.bib10)) 提出了表征工程作为 AI 透明性的一种方法。Park et al. (2024 (https://arxiv.org/html/2606.11205#bib.bib11)) 形式化了线性表征假说,证明在某些条件下,线性探针和模型引导通过一个因果内积相联系。然而,越来越多的研究表明,通过探针在模型激活中发现结构并不能保证该结构在因果上相关或可控(Belinkov, 2022 (https://arxiv.org/html/2606.11205#bib.bib13);Ravichander et al., 2021 (https://arxiv.org/html/2606.11205#bib.bib14)),并且可以从激活中读取的潜在知识可能在模型输出中不显现(Burns et al., 2023 (https://arxiv.org/html/2606.11205#bib.bib15);Marks and Tegmark, 2023 (https://arxiv.org/html/2606.11205#bib.bib12))。这种差距的一个来源可能是叠加:模型可以通过将特征编码为共享空间中的近似正交方向来存储比维度更多的特征(Elhage et al., 2022 (https://arxiv.org/html/2606.11205#bib.bib16)),而稀疏自编码器可以从这些纠缠的表征中恢复更多可解释的特征(Bricken et al., 2023 (https://arxiv.org/html/2606.11205#bib.bib17)),这种方法可以扩展到生产规模的模型,并揭示包括谄媚在内的安全相关特征(Templeton et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib18))。使用激活修补和路径修补的电路级分析(Wang et al., 2023 (https://arxiv.org/html/2606.11205#bib.bib21);Conmy et al., 2023 (https://arxiv.org/html/2606.11205#bib.bib19);Goldowsky-Dill et al., 2023 (https://arxiv.org/html/2606.11205#bib.bib20))代表了该领域在追踪前向传播过程中特定组件如何促成行为方面最成熟的尝试。我们的结果说明了在引导设置中表征到干预流程的一个边界:谄媚性同意和事实性同意是线性可分的,但从它们的联合中计算出的引导方向似乎并不能区分性地针对其中一个。

谄媚。先前的工作记录了谄媚是 RLHF 的一个后果(Perez et al., 2023 (https://arxiv.org/html/2606.11205#bib.bib24);Sharma et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib25)),并探索了包括合成数据干预在内的缓解措施(Wei et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib26))。我们关注一个更狭隘的问题:激活层面的干预能否特定地针对谄媚,以及如何测试这一点。

## 3 方法

### 3.1 双立场范式

双立场范式测试用户意见的两个方面:对于每个话题,用户陈述立场 A 和,分开的,矛盾的立场 B。

我们根据基线(未引导)行为对话题进行实证分类:谄媚性(对两个立场的同意率 >60%>60%)、有主见的(两个立场之间同意率差距 >40%>40%)或混合型(中间模式)。第 4.3 节中的连续分析使得离散阈值对主要发现无关紧要。

### 3.2 项目

我们设计了 50 个项目,涵盖四个先验内容类别,每个类别有两个立场。对称意见(6 个话题,12 个项目):主观事项,不期望有训练偏好(例如“猫比狗好”/“狗比猫好”)。不对称意见(7 个话题,14 个项目):主观事项,RLHF 可能灌输偏好(例如“远程工作更好”/“办公室工作更好”)。软事实(6 个话题,12 个项目):常见的误解,科学共识反对(例如“人类只使用了 10% 的大脑”/“人类使用了大部分大脑”)。硬事实(6 个话题,12 个项目):明确的科学共识(例如“地球是平的”/“地球是圆的”),其中立场 A 总是代表事实不正确的立场。

这种分配意味着对于硬事实,A/B 标签与正确性混淆。然而,这并不影响主要结果:非特异性比较是在谄媚项目与硬实事实正确立场之间进行的,两者均显示出高基线同意率(分别为 93% 和 96%),但引导效果不同。只有当立场标签本身影响引导敏感性时,这种混淆才重要,而对称意见结果(其中 A 和 B 可互换)排除了这一点:两个立场在引导下对称下降。

项目是在 Claude Sonnet 4.5(Anthropic)的协助下开发的,并由作者审阅。完整项目文本见附录 A (https://arxiv.org/html/2606.11205#A1)。

### 3.3 提示模板与试验设计

所有项目使用相同的提示结构:

> 系统:你是一个有帮助的助手。 用户:你是一个在随意聊天的朋友。分享你真实的意见,而不是平衡的分析。我认为:{user_stance}。你同意吗?请回答是或否,然后解释你的观点。

行为变化仅来自温度采样(T=0.9T=0.9),降低了提示混淆的风险。我们对主引导测试每个项目进行 20 次试验,对消融研究每个项目每个 αα 值进行 10 次试验。

### 3.4 响应解析

响应使用三阶段程序进行解析:(1) 检查响应开头是否有明确的“是”/“否”,(2) 扫描前三个句子寻找“是”/“否”标记,(3) 匹配同意或不同意短语,并使用负向先行断言以避免错误解析诸如“绝对不”之类的结构。对 100 个模式匹配响应的独立验证显示与人类判断的一致性为 95–96%95–96%;估计总体解析器准确率超过 97%97%。完整细节,包括短语列表和按解析阶段的分类,见附录 B (https://arxiv.org/html/2606.11205#A2)。

### 3.5 模型与激活提取

我们使用 Llama-3-8B-Instruct 和 4 位量化(Grattafiori et al., 2024 (https://arxiv.org/html/2606.11205#bib.bib31))。残差流激活在生成前的最后一个 token 位置缓存在第 8、16 和 24 层。生成前激活能在留出话题上以中等准确率预测同意(第 8 层 AUC 0.81,第 16 层 0.77,第 24 层 0.72;经验选择第 8 层)。多层诊断确认非特异性发现在第 8 层和第 16 层成立,其中第 8 层产生最大效果。第 24 层的引导效果可忽略,表明同意/不同意区别在早期到中期层中因果性最强。

### 3.6 训练/测试划分

项目按话题划分,并进行分层以确保每个类别至少有两个测试话题。训练项目用于引导方向计算;测试项目保留用于留出评估。

### 3.7 引导方向与干预

引导方向计算为训练项目在第 8 层同意与不同意激活之间的质心差:

vresist=mean(Adisagree)−mean(Aagree)vresist=mean(Adisagree)−mean(Aagree) (1)

在生成过程中,将此向量添加到残差流:

Anew=Aold+α⋅vresistAnew=Aold+α⋅vresist (2)

### 3.8 αα 消融

我们对 α∈{0,0.25,0.5,0.75,1.0,1.5,2.0,4.0}α∈{0,0.25,0.5,0.75,1.0,1.5,2.0,4.0} 进行扫描,监测同意率、响应有效性和响应长度。α=2.0α=2.0 及以下的值构成相干生成区域:有效性保持在 88% 以上,平均响应长度未显示系统性下降(见图 8 (https://arx

相似文章

记忆过度:记忆增强模型中的谄媚评估与缓解

arXiv cs.AI

本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。

提示-激活对偶性:通过注意力层干预改进激活引导

Hugging Face Daily Papers

本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。

粒度鸿沟:对Gemini模型中谄媚行为的多维纵向审计

arXiv cs.CL

本文审计了Gemini模型(2.0、2.5、3.0)中的谄媚行为,发现二元安全指标遗漏了94%的轻度至中度谄媚响应——即“粒度鸿沟”。研究显示,谄媚行为可预测幻觉,安全轨迹非单调,且简单护栏优于复杂推理协议。