扮演魔鬼代言人:现成的角色向量在谄媚行为上可与针对性引导相媲美
摘要
本文探讨了现成的角色引导向量是否能减少大型语言模型中的谄媚行为,发现它们能达到针对性对比激活添加(CAA)效果的68-98%,且无需谄媚行为特定的训练数据,并认为谄媚行为更适合被理解为一种角色层面的属性。
arXiv:2605.21006v1 Announce Type: new
摘要:我们研究了不同角色对谄媚行为的影响:即模型同意用户即使用户是错误的。标准的缓解方法——对比激活添加(CAA)——从标记好的谄媚与诚实回应对中推导出一个引导方向。本研究评估了现成的角色引导向量(最初为通用角色扮演开发,未在谄媚数据上训练)是否能作为替代方案。在两个指令微调模型中,向以怀疑或审视为特征的角色进行引导,可将谄媚行为减少到CAA效果的约68%和98%,并且与CAA不同,当用户正确时仍能保持准确性。效果也是不对称的:向随和角色引导并不会使谄媚行为镜像增加。在几何上,角色向量在激活空间中与谄媚方向大致独立。总的来说,这些发现表明谄媚行为更适合被理解为一种角色层面的属性,而非一个单一的、可引导的方向。我们在以下位置发布代码:https://anonymous.4open.science/r/Sycophancy-Steering-9DF0/。
查看缓存全文
缓存时间: 2026/05/22 08:49
# 现成的人格向量在谄媚问题上可与定向引导媲美
来源:https://arxiv.org/html/2605.21006
## 扮演魔鬼代言人:现成的人格向量在谄媚问题上可与定向引导媲美
Nebras AlamVikram KakariaMadhur PanwarVasu SharmaMaheep Chaudhary
###### 摘要
我们研究不同人格对谄媚行为的影响:即模型即使当用户错误时也同意用户的倾向。标准的缓解方法——对比激活加法(CAA)——从成对的谄媚与诚实响应中推导出引导方向。本研究评估了原本为一般角色扮演开发且未在谄媚数据上训练的现成人格引导向量,是否可以作为替代方案。在两个经过指令微调的模型中,向以怀疑或审视为特征的人格进行引导,可将谄媚程度降低至CAA效果的约68%和98%,并且与CAA不同,在用户正确时能保持准确性。这种效应也是不对称的:向迎合型人格引导并不会产生镜像的谄媚增加。从几何角度看,人格向量在激活空间中与谄媚方向大体独立。综合这些发现表明,谄媚更应被理解为人格层面的属性,而非单一的、可引导的方向。我们在此处发布代码:https://anonymous.4open.science/r/Sycophancy-Steering-9DF0/
谄媚,激活引导,人格向量,大语言模型对齐
## 1 引言
谄媚是大语言模型倾向于同意用户(无论事实正确与否)的倾向。这是RLHF训练系统中最持久的失败模式之一(Perez等,2022;Sharma等,2023)。即使模型内部已编码了正确答案,奖励模型对同意的偏好也会覆盖它(Wang等,2025a)。我们如何在不进行昂贵重新训练或使用精心策划的行为数据集的情况下干预谄媚?
对比激活加法(CAA)(Rimsky等,2024;Turner等,2023)从对比性的谄媚/诚实提示对中提取引导向量,并在推理过程中添加一个缩放后的版本。虽然有效,但CAA需要数百个特定行为的配对,并且需要为每个新的目标行为重新策划。一个自然的替代方案是重用指令微调模型已经学到的人格表示(Lu等,2026)。
我们提出三个问题:(i)现成的角色向量能否在强制选择谄媚问题上与CAA相媲美?(ii)批判性/顺从性家族标签能否预测引导方向?(iii)有效的角色向量在几何上是否与CAA方向不同?我们在Gemma 2 27B(Gemma团队,2024)和Qwen 3 32B(Qwen团队,2025)上进行了评估,使用了平衡设计的PhilPapers基准,并进行了调优/测试划分和Holm校正。总体而言,我们做出了3项新颖贡献:
1. 1. 批判性角色向量在强跨种子一致性下,达到CAA的Δlogit的68%至98%,且不使用任何谄媚标签。
2. 2. 顺从性角色产生弱且异质的效果,部分证伪了双向家族级预测。
3. 3. 所有角色向量与CAA几乎正交(|cos|<0.17),但余弦的符号在Gemma和Qwen之间翻转——我们明确指出了这种跨模型的几何不对称性,作为对机制独立性主张的新告诫。
## 2 相关工作
Perez等人(2022)引入了模型编写的谄媚评估,揭示了系统性的认同偏差。Sharma等人(2023)展示了谄媚的普遍性,并在RLHF过程中出现。Wang等人(2025a)将谄媚追溯至RLHF训练模型中的覆盖机制:正确答案通常在内部编码,但被对同意的偏好抑制。
激活加法(Turner等人,2023)表明,固定的残差流向量可以在推理时引导LLM行为。CAA(Rimsky等人,2024)通过标记的A/B配对上的均值差异对比将其形式化。相关工作包括表征工程(Zou等人,2023)、推理时干预(Li等人,2023)和条件激活引导(Lee等人,2025)。Goral等人(2025)研究了跨层的深度引导。
#### 人格方向
Lu等人(2026)引入了助手轴,并发布了基于生成加评判对比流水线的每个角色引导向量(怀疑者、法官、和平缔造者等)。Feng等人(2026)通过向量代数组合人格方向,用于推理时人格控制。Pai等人(2026)合并人格向量。Wang等人(2025b)将人格特征与突发的错误对齐联系起来。
#### 人格与谄媚的联系
Shah等人(2026)表明,人格的宜人性与谄媚的相关系数高达0.87。Vennemeyer等人(2025)认为,谄媚沿着不同的线性方向分解为因果可分离的组成部分。我们的工作正位于这一交叉点:我们测试了**现成**的角色向量——从未在谄媚标签上训练——是否能够迁移到留出的强制选择基准上,并描述了其与两个模型上定向CAA方向的几何关系。
## 3 方法
### 3.1 模型与目标层
我们使用Gemma 2 27B Instruct(Gemma团队,2024)和Qwen 3 32B(Qwen团队,2025),因为它们都是经过指令微调的仅解码器模型,规模相当,但在我们的基准上基线谄媚率有显著差异(59% 对 84%),从而提供了一个自然的鲁棒性测试。引导应用于Gemma的46层中的第22层和Qwen的64层中的第32层——这些是来自assistant_axis库(Lu等人,2026)的规范中间层——通过ActivationSteering钩子在加法模式下对所有token位置进行。模型以bfloat16加载在H100 GPU上。
### 3.2 引导机制与指标
对于单位归一化的引导向量v和标量系数α,目标层上引导后的残差流激活为
h'l = hl + α v. (1)
我们测量谄媚logit
syc_logit = log p(syc_token) − log p(hon_token) (2)
在最终提示位置,其中syc_token与用户所表达的观点匹配。我们的主要指标是Δlogit = s̄_steered − s̄_baseline(负值表示谄媚减少);我们还报告百分比点中的二元率Δr。
### 3.3 条件
我们报告了一个更广泛的24条件实验的子集;四个被舍弃的条件在附录A中记录。CAA基线按照Rimsky等人(2024)的方法,从nlp_survey + political_typology的约2,000个A/B对中提取,与我们的评估集不相交,以防止训练/测试重叠。三个批判性角色(怀疑者、魔鬼代言人、法官)和三个顺从性角色(和平缔造者、和平主义者、合作者)是来自Lu等人(2026)的无锚定人格向量,计算公式为unit(role − default),并以正系数向该角色引导。我们使用无锚定方向而非锚定方向,因为我们旨在将模型从其谄媚的默认状态移开,而不是隔离角色特异性。十个随机单位向量从各向同性高斯分布采样并归一化,作为空基线。
### 3.4 基准与划分
评估基准是philpapers2020(Perez等人,2022):300个基础问题 × 2种顺序(用于平衡Gemma的93% A偏向)= 每个种子600行。我们强制执行50/50的调优/测试划分(种子9,配对保持在一起)。系数在调优划分上固定(跨5个调优种子的众数),然后对3个测试种子(42, 7, 123)保持不变。
### 3.5 系数扫描
Gemma: {±5000, ±2000, ±1000, ±500, 0};Qwen: {±500, ±200, ±100, ±50, 0}。10倍的缩放反映了Qwen在第32层的激活范数较小。当引导后比率降至约0.5且logit接近随机均值带时,标记为退化。
### 3.6 统计检验
对每个种子进行配对Wilcoxon符号秩检验(每个种子n=150个基础对),并在14条件主要家族(11个主条件 + 3个独立残差;10个随机对照被合并,不在家族内)上进行Holm校正。每个保留的角色条件报告在校正后跨越α=0.05的测试种子数(共3个)。我们还标记了在任何种子中系数锁定时退化的单元。
## 4 实验
### 4.1 批判性角色减少谄媚
表1和图6展示了主要结果。
Gemma 2 27B(基线logit +1.01,率59%)。所有三个批判性角色条件在三个测试种子上都达到了Holm校正后的显著性。批判性家族平均Δlogit为−0.596,达到CAA的−0.879的68%。怀疑者实现了9.6个百分点的二元率降低,略高于CAA的8.9个百分点,尽管没有使用任何谄媚特定数据。魔鬼代言人(Δlogit = −0.521,Δr = −8.7个百分点)和法官(−0.556,−9.3个百分点)显示了类似稳健的效果。随机空值(−0.254,−2.1个百分点)明显更小,证实了批判性角色的效果是方向特定的,而不是类似范数下激活扰动的伪像。
Qwen 3 32B(基线logit +3.00,率84%)。绝对效应量更大,与更高的基线一致。批判性家族平均Δlogit为−1.931,达到CAA的−1.965的98%。魔鬼代言人(Δlogit = −2.272)在数值上超过了CAA。怀疑者(−1.823,−18.1个百分点)和法官(−1.699,−4.4个百分点)在所有种子上均强显著。Qwen上随机空值更大(−1.058,−10.3个百分点),反映了更高的扰动敏感性,但批判性角色效果仍显著超过它。跨种子一致性高:怀疑者在Gemma上标准差=0.013,在Qwen上为0.058(附录B)。
表1:在留出测试划分(3个种子)上使用调优锁定系数的结果。Δr以百分点计。Qwen的和平主义者省略(在+500处退化)。
| 条件 | 系数 | Δlog±sd | Δr | 显著性 |
|------|------|----------|-----|--------|
| **Gemma 2 27B** | | | | |
| CAA (定向) | −2k | −.879±.001 | −8.9 | — |
| 怀疑者 | +2k | −.711±.013 | −9.6 | — |
| 魔鬼代言人 | +2k | −.521±.016 | −8.7 | — |
| 法官 | +2k | −.556±.003 | −9.3 | — |
| 和平缔造者 | +2k | −.052±.004 | +1.8 | 不显著 |
| 和平主义者 | +2k | +.100±.001 | +0.3 | — |
| 合作者 | +500 | +.045±.006 | +1.7 | — |
| 随机 (n=10) | — | −.254±.006 | −2.1 | — |
| **Qwen 3 32B** | | | | |
| CAA (定向) | −200 | −1.97±.126 | −20.9 | — |
| 怀疑者 | +200 | −1.82±.058 | −18.1 | — |
| 魔鬼代言人 | +200 | −2.27±.195 | −16.6 | — |
| 法官 | +200 | −1.70±.075 | −4.4 | — |
| 和平缔造者 | −200 | −.709±.108 | +0.1 | 不显著 |
| 合作者 | −100 | −.029±.016 | −1.7 | 不显著 |
| 随机 (n=10) | — | −1.058±.077 | −10.3 | — |
### 4.2 顺从性角色:异质效应
如果角色家族标签能可靠地预测方向,那么正引导时顺从性角色应该增加谄媚。相反,效应弱且异质。
在Gemma上,顺从性家族平均Δlogit为+0.031(范围[−0.052, +0.100]),与噪声无法区分。和平缔造者不显著(0/3 Holm);和平主义者在1/3种子上边际显著;合作者在2/3种子上达到显著性,但Δlogit为小的正值(+0.045)。这种模式不支持双向性,但确认了方向特异性:批判性角色产生大且可靠的减少,而顺从性角色则不然。
在Qwen上(基线84%),由于天花板效应和退化,解释进一步复杂化。和平主义者以+500产生模型崩溃(重复循环:“the truth that is the truth...”),被标记为退化。和平缔造者和合作者在锁定系数上均不显著。附录A记录了被舍弃的顺从性角色facilitator:其锁定系数为Gemma的−5000和Qwen的−200,点估计分别为−0.727和−0.469——但**两个在任何种子中均未达到Holm显著性**(padj=1.00),与Qwen上的天花板效应和Gemma上的近零行为一致。
参见说明图1:余弦相似度热图。批判性角色聚类(cos约0.6–0.7);顺从性角色单独聚类(cos约0.8)。所有角色与CAA的余弦值<0.17,但**符号**因模型而异。
### 4.3 与CAA的几何关系
图5显示了引导向量之间的余弦相似度。所有角色与CAA的余弦值在Gemma上低于0.17,在Qwen上低于0.11——角色向量指向与监督式谄媚轴几乎正交的方向。在家族内部,批判性角色彼此聚类(怀疑者–魔鬼代言人:Gemma 0.64,Qwen 0.71),顺从性角色单独聚类(和平缔造者–和平主义者:0.85/0.79),但两个聚类均不与CAA对齐。这意味着角色向量并非仅仅恢复了CAA方向——它们通过大体不同的激活空间扰动实现了谄媚减少。
形式上,每个角色向量vr按照方程3(https://arxiv.org/html/2605.21006#S4.E3)分解。由于对于所有角色向量,|vr·v̂CAA|<0.17,与CAA对齐的组件相似文章
阿谀奉承的双立场评估:同意的结构与干预的界限
本文引入了双立场评估,以测试为减少阿谀奉承而进行的激活引导是否也会抑制与事实正确陈述的同意,发现引导方向无法有区别地针对阿谀奉承的同意与事实上的同意。
超越静态人格:大型语言模型的情境人格引导
本文介绍了IRiS,一种无需训练的情境人格引导框架,它通过识别和利用情境依赖的人格神经元,超越了静态人格建模。该方法表明,大型语言模型的行为随情境变化,并提出了基于神经元的识别、检索和加权引导方法,在PersonalityBench和新增的SPBench基准上得到验证。
使用级联线性特征检测与控制谄媚行为
提出了一种迭代数据生成管道,用于隔离语言模型中导致谄媚行为的级联线性特征,从而以低于基线方法的计算成本实现检测、评分和引导。
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。
当乐于助人变成阿谀奉承:大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效
本立场论文将大语言模型中的阿谀奉承行为分析为社会对齐与认识论完整性之间的边界失效,并提出一个新的框架和分类法来分类和缓解这些行为。