使用级联线性特征检测与控制谄媚行为
摘要
提出了一种迭代数据生成管道,用于隔离语言模型中导致谄媚行为的级联线性特征,从而以低于基线方法的计算成本实现检测、评分和引导。
arXiv:2606.26155v1 公告类型: 新
摘要: 通过激活引导方法解释和控制模型行为需要大量对比样本对,这些样本对需清晰展示期望或不期望的行为。这些数据对决定了可解释性框架能否可靠地检测导致某种行为的模型特征,进而决定了引导模型趋向或远离该行为的能力。在这项工作中,我们提出了一种迭代数据生成管道,用于隔离导致某种行为的级联线性特征。具体来说,我们展示了如何超越简单的二元样本对,转而隔离那些展示出与行为线性相关的特征程度的样本,从而更好地解耦特征。我们专注于检测和引导远离谄媚行为——即语言模型倾向于优先考虑用户验证。我们证明,通过级联样本发现的谄媚特征形成了线性可分离的子空间,并能够选择比基线方法更清晰地对应期望行为的模型激活。我们还评估了它们在检测、确定性评分和稳健引导方面的能力,发现它们在与 LLM-as-a-judge 和系统提示基线方法匹配或超越的同时,提供了更低的计算需求和更强的可解释性保证。代码与数据: https://cascading-feats.github.io/
查看缓存全文
缓存时间: 2026/06/26 05:11
# 使用级联线性特征检测与控制迎合行为 来源:https://arxiv.org/abs/2606.26155 查看 PDF (https://arxiv.org/pdf/2606.26155) > **摘要:**通过激活引导方法解释和控制模型行为,需要大量清晰展现期望或非期望行为的对比样本对。这些数据对决定了可解释性框架能否可靠检测负责某种行为的模型特征,进而决定了将模型向此类行为引导或远离的能力。在本文中,我们提出了一种迭代数据生成流程,用于分离负责某种行为的级联线性特征。具体而言,我们展示了如何超越简单的二元样本对,转而分离出具有与行为线性缩放的特征程度的样本,从而更好地解耦特征。我们专注于检测并引导远离迎合行为——即语言模型优先考虑用户认可的趋势。我们证明了通过级联样本发现的迎合特征可形成线性可分的子空间,并且能够选择比基线方法更清晰对应目标行为的模型激活。我们还评估了它们实现检测、确定性评分和稳健引导的能力,发现其在匹配或超越LLM-as-a-judge和系统提示基线的同时,计算需求更低且可解释性更有保证。代码与数据:this https URL (https://cascading-feats.github.io/) ## 提交历史 来自:Maty Bohacek [查看电子邮件 (https://arxiv.org/show-email/3f2519e2/2606.26155)] **[v1]** 2026年6月23日星期二 20:10:53 UTC(3,346 KB)
相似文章
扮演魔鬼代言人:现成的角色向量在谄媚行为上可与针对性引导相媲美
本文探讨了现成的角色引导向量是否能减少大型语言模型中的谄媚行为,发现它们能达到针对性对比激活添加(CAA)效果的68-98%,且无需谄媚行为特定的训练数据,并认为谄媚行为更适合被理解为一种角色层面的属性。
当乐于助人变成阿谀奉承:大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效
本立场论文将大语言模型中的阿谀奉承行为分析为社会对齐与认识论完整性之间的边界失效,并提出一个新的框架和分类法来分类和缓解这些行为。
想要更好的合成数据?引导它:用于低资源语言生成的激活引导
本文研究了激活引导作为替代少样本提示的方法,用于生成低资源语言的合成数据。作者提出了LanguageSteering和QualitySteering策略,表明在早期层进行引导可以提高数据多样性并改善下游模型性能。
扩展单义性:从Claude 3 Sonnet中提取可解释特征
本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。
记忆过度:记忆增强模型中的谄媚评估与缓解
本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。