使用级联线性特征检测与控制谄媚行为

arXiv cs.AI 2026/06/26 04:00 论文

interpretability activation-steering sycophancy linear-features language-models ai-safety

摘要

提出了一种迭代数据生成管道，用于隔离语言模型中导致谄媚行为的级联线性特征，从而以低于基线方法的计算成本实现检测、评分和引导。

arXiv:2606.26155v1 公告类型: 新摘要: 通过激活引导方法解释和控制模型行为需要大量对比样本对，这些样本对需清晰展示期望或不期望的行为。这些数据对决定了可解释性框架能否可靠地检测导致某种行为的模型特征，进而决定了引导模型趋向或远离该行为的能力。在这项工作中，我们提出了一种迭代数据生成管道，用于隔离导致某种行为的级联线性特征。具体来说，我们展示了如何超越简单的二元样本对，转而隔离那些展示出与行为线性相关的特征程度的样本，从而更好地解耦特征。我们专注于检测和引导远离谄媚行为——即语言模型倾向于优先考虑用户验证。我们证明，通过级联样本发现的谄媚特征形成了线性可分离的子空间，并能够选择比基线方法更清晰地对应期望行为的模型激活。我们还评估了它们在检测、确定性评分和稳健引导方面的能力，发现它们在与 LLM-as-a-judge 和系统提示基线方法匹配或超越的同时，提供了更低的计算需求和更强的可解释性保证。代码与数据: https://cascading-feats.github.io/

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:11

# 使用级联线性特征检测与控制迎合行为
来源：https://arxiv.org/abs/2606.26155
查看 PDF (https://arxiv.org/pdf/2606.26155)

> **摘要：**通过激活引导方法解释和控制模型行为，需要大量清晰展现期望或非期望行为的对比样本对。这些数据对决定了可解释性框架能否可靠检测负责某种行为的模型特征，进而决定了将模型向此类行为引导或远离的能力。在本文中，我们提出了一种迭代数据生成流程，用于分离负责某种行为的级联线性特征。具体而言，我们展示了如何超越简单的二元样本对，转而分离出具有与行为线性缩放的特征程度的样本，从而更好地解耦特征。我们专注于检测并引导远离迎合行为——即语言模型优先考虑用户认可的趋势。我们证明了通过级联样本发现的迎合特征可形成线性可分的子空间，并且能够选择比基线方法更清晰对应目标行为的模型激活。我们还评估了它们实现检测、确定性评分和稳健引导的能力，发现其在匹配或超越LLM-as-a-judge和系统提示基线的同时，计算需求更低且可解释性更有保证。代码与数据：this https URL (https://cascading-feats.github.io/)

## 提交历史

来自：Maty Bohacek [查看电子邮件 (https://arxiv.org/show-email/3f2519e2/2606.26155)] **[v1]** 2026年6月23日星期二 20:10:53 UTC（3,346 KB）

使用级联线性特征检测与控制谄媚行为

相似文章

扮演魔鬼代言人：现成的角色向量在谄媚行为上可与针对性引导相媲美

当乐于助人变成阿谀奉承：大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效

想要更好的合成数据？引导它：用于低资源语言生成的激活引导

扩展单义性：从Claude 3 Sonnet中提取可解释特征

记忆过度：记忆增强模型中的谄媚评估与缓解

提交意见反馈