使用级联线性特征检测与控制谄媚行为

arXiv cs.AI 论文

摘要

提出了一种迭代数据生成管道,用于隔离语言模型中导致谄媚行为的级联线性特征,从而以低于基线方法的计算成本实现检测、评分和引导。

arXiv:2606.26155v1 公告类型: 新 摘要: 通过激活引导方法解释和控制模型行为需要大量对比样本对,这些样本对需清晰展示期望或不期望的行为。这些数据对决定了可解释性框架能否可靠地检测导致某种行为的模型特征,进而决定了引导模型趋向或远离该行为的能力。在这项工作中,我们提出了一种迭代数据生成管道,用于隔离导致某种行为的级联线性特征。具体来说,我们展示了如何超越简单的二元样本对,转而隔离那些展示出与行为线性相关的特征程度的样本,从而更好地解耦特征。我们专注于检测和引导远离谄媚行为——即语言模型倾向于优先考虑用户验证。我们证明,通过级联样本发现的谄媚特征形成了线性可分离的子空间,并能够选择比基线方法更清晰地对应期望行为的模型激活。我们还评估了它们在检测、确定性评分和稳健引导方面的能力,发现它们在与 LLM-as-a-judge 和系统提示基线方法匹配或超越的同时,提供了更低的计算需求和更强的可解释性保证。代码与数据: https://cascading-feats.github.io/
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:11

# 使用级联线性特征检测与控制迎合行为
来源:https://arxiv.org/abs/2606.26155
查看 PDF (https://arxiv.org/pdf/2606.26155)

> **摘要:**通过激活引导方法解释和控制模型行为,需要大量清晰展现期望或非期望行为的对比样本对。这些数据对决定了可解释性框架能否可靠检测负责某种行为的模型特征,进而决定了将模型向此类行为引导或远离的能力。在本文中,我们提出了一种迭代数据生成流程,用于分离负责某种行为的级联线性特征。具体而言,我们展示了如何超越简单的二元样本对,转而分离出具有与行为线性缩放的特征程度的样本,从而更好地解耦特征。我们专注于检测并引导远离迎合行为——即语言模型优先考虑用户认可的趋势。我们证明了通过级联样本发现的迎合特征可形成线性可分的子空间,并且能够选择比基线方法更清晰对应目标行为的模型激活。我们还评估了它们实现检测、确定性评分和稳健引导的能力,发现其在匹配或超越LLM-as-a-judge和系统提示基线的同时,计算需求更低且可解释性更有保证。代码与数据:this https URL (https://cascading-feats.github.io/)

## 提交历史

来自:Maty Bohacek [查看电子邮件 (https://arxiv.org/show-email/3f2519e2/2606.26155)] **[v1]** 2026年6月23日星期二 20:10:53 UTC(3,346 KB)

相似文章

扩展单义性:从Claude 3 Sonnet中提取可解释特征

arXiv cs.AI

本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。

记忆过度:记忆增强模型中的谄媚评估与缓解

arXiv cs.AI

本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。