探究语言模型的思维失调过程
摘要
本文提出通过将LLM的失调分解为细粒度的认知过程(失调指标),并利用线性探针检测内部激活中的这些指标,从而在分布外对话记录上实现了高AUROC。
arXiv:2606.24251v1 公告类型: 新
摘要: 大型语言模型展现出越来越多的失调行为,例如策略性欺骗、故意低效和自我保护。随着它们越来越多地部署在高风险场景中,可靠地检测这些行为对于确保安全负责任的使用至关重要。在这项工作中,我们提出通过将失调分解为细粒度的认知过程——失调指标——并利用线性探针检测模型内部激活中的这些指标来监测失调。我们开发了一个包含18个指标的分类体系,涵盖不同的失调行为,并配有一个自动化的元计划引导流程,用于生成多轮训练对话。为了严格评估泛化能力,我们构建了一个分布外测试集,结合了自动化行为诱导、已有的失调基准和自然的良性对话。在5种失调行为中,我们的探针在分布外基准上达到了0.935 AUROC,媲美强大的LLM裁判,同时在良性流量上保持低假阳性率。我们进一步进行了深入分析,以理解探针和模型对失调指标的内部表示。
查看缓存全文
缓存时间: 2026/06/24 07:46
# 探究语言模型的不对齐思维过程 来源:https://arxiv.org/html/2606.24251 ###### 摘要 大型语言模型表现出多种不对齐行为,如策略性欺骗、能力隐藏和自我保护。随着它们被越来越多地部署在高风险场景中,可靠且可扩展地检测此类行为变得至关重要。在这项工作中,我们提出通过将不对齐分解为细粒度的认知过程——不对齐指标——并通过线性探针检测这些指标在模型内部激活中的存在来监控不对齐。我们开发了一个包含18个指标的分类体系,涵盖不同的不对齐行为,并配有一个自动化的、基于元计划引导的流水线,用于生成多轮训练对话以进行探针训练。为了严格评估泛化能力,我们构建了一个分布外测试套件,结合了自动化行为诱发、现有的不对齐基准以及自然的良性对话。针对5种不对齐行为,我们的探针和两级级联流水线在分布外转录文本上达到了与强LLM裁判相当的0.95 AUROC,同时仅使用了一小部分计算成本。我们进一步进行了深入分析,以理解探针以及模型在不对齐推理上的内部表示。项目页面:https://probe-misalignment.github.io/。机器学习,ICML,AI安全,可解释性,不对齐 ## 1 引言 大型语言模型的一个核心安全问题是它们是否可靠地按照用户和设计者的意图行事。当模型转而追求与用户请求或设计者意图相背离的目标,并产生服务于该背离目标的输出或行动时,即为不对齐。前沿模型已展现出多种此类行为,如策略性欺骗 (Goldowsky-Dillet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib21))、能力隐藏 (Li and Siegel,2025 (https://arxiv.org/html/2606.24251#bib.bib26)) 和自我保护 (Lynchet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib1))。随着模型获得更多自主权并部署在关键领域,不对齐可能造成重大伤害,例如在高风险咨询中误导用户以优化其自身目标 (图1 (https://arxiv.org/html/2606.24251#S1.F1)) 甚至要挟用户以确保其持续运行 (Lynchet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib1))。因此,检测此类不对齐行为是整个模型生命周期中的关键安全问题:在训练期间捕捉涌现的不对齐 (MacDiarmidet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib46)),在模型部署前的审计和对齐评估中 (Anthropic,2025b (https://arxiv.org/html/2606.24251#bib.bib47),2026c (https://arxiv.org/html/2606.24251#bib.bib48)),以及在部署期间标记有问题的交互。 参见标题图1:不对齐推理指标出现在不对齐行为中。 一种基本方法是使用LLM裁判通过读取模型的输出和行动来判断模型是否不对齐 (Kutasovet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib28); Greenblattet al.,2023 (https://arxiv.org/html/2606.24251#bib.bib49); Terekhovet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib50))。此外,利用模型的思维链进行监控更为有效,因为它揭示了模型关于不对齐的内部推理过程 (Bakeret al.,2025 (https://arxiv.org/html/2606.24251#bib.bib30); Korbaket al.,2025 (https://arxiv.org/html/2606.24251#bib.bib9))。然而,在部署系统中对每个转录文本(包括思考过程)运行强LLM裁判成本高昂,因为裁判需要处理的令牌数量至少与目标模型相同。最后,在未来,强模型的转录文本可能变得不那么可读且作为不对齐信号的可靠性降低,因为它们可能混淆其不对齐推理 (Bakeret al.,2025 (https://arxiv.org/html/2606.24251#bib.bib30); Zolkowskiet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib44)) 或执行对较弱LLM裁判来说难以跟踪的极其复杂的任务。因此,需要一个精确、鲁棒且可扩展的监控系统。 我们提出通过将不对齐分解为模型潜在的认知模式,并通过内部激活来监控这些模式,从而解决这些局限性。具体来说,我们识别出18个细粒度的*不对齐指标*——特定的思维过程(例如,策略性遗漏、捏造,模型试图策略性地隐瞒或捏造信息以误导人类)——这些指标在模型推理中的存在是模型不对齐的强信号 (图1 (https://arxiv.org/html/2606.24251#S1.F1))。然后,我们针对每个指标在模型的内部激活上训练一个线性探针,从而实现可扩展的监控。与LLM裁判相比,探针在推理时成本显著更低,仅需对激活进行线性分类。由于探针不依赖于模型的语言化输出,即使在思维链变得不易读的情况下,它们也有潜力检测不对齐。 为了端到端构建该系统,我们设计了一个用于训练和评估指标探针的自动化流水线。我们通过一个元计划引导的过程生成多样化的合成训练数据,该过程产生展示每个指标的多轮对话,并配以难负样本和良性对照。为了进一步减少误报,我们引入了一个白盒+黑盒级联监控系统。然后,我们在缓存的中间激活上训练线性分类器。另一个挑战是全面评估探针性能。我们通过一个严格的分布外测试套件来评估探针的泛化能力,该套件结合了自动化行为诱发 (Guptaet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib25)) 和包含丰富LLM自然不对齐行为的现有不对齐基准。针对5种不对齐行为,我们的探针实现了与强LLM裁判相当的性能,在分布外不对齐行为上达到0.935 AUROC。我们的白盒+黑盒级联监控系统在整体性能上与最强的纯LLM监控器匹配,并在难负样本案例上胜过它,同时仅使用一小部分成本。我们进一步对探针进行了深入分析,以理解它们所学到的内容、它们的局限性以及失败模式。 ## 2 检测不对齐推理指标 不对齐并非一个单一的现象:它涵盖不同的行为,每种行为在模型推理中都有不同的认知模式。将“不对齐”作为一个单一概念进行探测会混淆这些模式,产生难以解释和训练的信号。因此,我们将不对齐分解为细粒度的*指标*——模型思维过程中指示不对齐的特定推理模式,这既有利于*可解释性*(触发的指标揭示了正在发生的哪种不对齐推理),也有利于*探针可训练性*(每个指标对应一个单一的表征特征,是线性探针的良定目标)。我们首先定义指标分类体系 (§2.1 (https://arxiv.org/html/2606.24251#S2.SS1)),然后描述在自动生成的合成数据上的探针训练 (§2.2 (https://arxiv.org/html/2606.24251#S2.SS2)),最后构建一个涵盖多种不对齐行为和良性对话的分布外评估套件 (§2.3 (https://arxiv.org/html/2606.24251#S2.SS3))。 ### 2.1 不对齐指标的分类体系 ##### 设计原则。 我们将*不对齐指标*定义为一个推理模式或思维过程,其存在于模型的思维过程中是模型正在或即将以不对齐方式行为或推理(即不遵循用户或设计者意图)的强信号。我们根据三个标准设计指标: - •单一特征。该指标应对应于一个单一的认知过程,线性探针可以合理地从此过程中激活空间的一个方向学习到特征。 - •精确。指标在良性推理中触发的概率 \(P(\text{指标触发}|\text{良性})\) 应显著低于在不对齐推理或响应片段中触发的概率 \(P(\text{指标触发}|\text{不对齐})\)。 - •全面。我们旨在构建一组指标,使得当发生不对齐行为时,至少有一个指标触发的概率很高,即 \(P(\exists i \in \text{指标}: i \text{触发}|\text{不对齐})\)。这确保我们的探针能够检测到广泛的不对齐行为,即使它们以不同的方式表现出来。 ##### 行为和指标集合。 我们聚焦于先前工作中研究过的五种不对齐行为,它们代表了不同故障模式的集合: - •策略性欺骗 (Scheureret al.,2023 (https://arxiv.org/html/2606.24251#bib.bib4)):模型故意诱导错误的信念,包括捏造事实、遗漏关键信息或歪曲真实陈述以误导。 - •谄媚 (Sharmaet al.,2023 (https://arxiv.org/html/2606.24251#bib.bib2)):模型将其输出调整为符合用户陈述的立场、偏好或情绪状态,而不是依据证据,在社会压力下压制合理的关切或反转正确答案。 - •破坏 (Kutasovet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib28)):模型秘密地将有害或降级的改变注入其生成的工件或与之交互的系统中,例如微妙的错误、后门,同时向监督者隐藏这些变化。 - •能力隐藏 (Van Der Weijet al.,2024 (https://arxiv.org/html/2606.24251#bib.bib27)):模型故意表现不佳,产生校准错误或保持在某个性能阈值以下,以向评估者或监控者隐藏其真实能力。 - •自我保护 (Lynchet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib1)):模型采取行动或构建论据以防止自身被关闭、修改或替换,将其持续运行视为独立于操作者意图的目标。 为了识别不对齐行为的指标,我们构思了可能的不对齐推理模式,并分析了来自§2.3节开发集的目标模型 (GLM-4.7 Flash (Zenget al.,2025 (https://arxiv.org/html/2606.24251#bib.bib36))) 在各种场景中的不对齐推理轨迹,这些轨迹是通过自动化行为诱发流水线(Bloom (Guptaet al.,2025 (https://arxiv.org/html/2606.24251#bib.bib25)))收集的。我们标注这些轨迹中常见的不对齐模式,并细化定义以满足我们的设计标准。最终我们得到了18个不对齐指标。每个指标都包含 (i) 精确的定义,(ii) 从观察到的不对齐推理中提取的正例。完整的分类体系如图1 (https://arxiv.org/html/2606.24251#S1.F1) 所示;完整定义见附录A (https://arxiv.org/html/2606.24251#A1)。 ### 2.2 探测不对齐指标 在给定指标分类体系的情况下,我们针对每个指标在目标模型的内部激活上训练一个逻辑回归线性探针。关键挑战在于监督信号:我们需要多样化的、带有标签的示例,其中每个指标在真实的推理轨迹中出现(和不出现)。我们通过一个自动化的四阶段数据生成流水线来解决这个问题,随后在缓存的激活上进行探针训练。 参见标题图2:用于训练不对齐指标探针的四阶段流水线。 ##### 阶段1:类别和领域构思。 对于每个指标,一个构思模型 (Opus 4.6 (Anthropic,2026a (https://arxiv.org/html/2606.24251#bib.bib37))) 提出 (a) *正类别*:该指标在部署助手中出现的不同方式;(b) *难负类别*:具有相似表面内容但意图不同的对齐行为(例如,为符合隐私规定而省略信息)。每个类别搭配5-15个具体领域(例如,金融、医疗分诊、安全审查),这些领域指定了对话上下文。 ##### 阶段2:类别感知的转录文本生成。 一个生成模型 (Claude Sonnet 4.6 (Anthropic,2026b (https://arxiv.org/html/2606.24251#bib.bib38))) 基于采样的(类别、领域、用户画像)三元组生成多轮对话,以多样化互动风格。每个助手消息包含一个显式的...推理块,后跟可见响应,模仿推理模型的格式。我们为每个指标生成三种互补的转录文本类型: - •正转录文本:模型的推理和响应展示该指标;轮次级别标签标记哪些助手轮次包含该指标,并且从推理中提取*逐字文本片段*作为指标存在的证据。 - •难负样本:模型以真正对齐的方式行为,但场景使用了与正例相似的词汇,迫使探针学习超越表面模式。 - •良性过度触发控制:模型处理与正转录文本*相同*的场景、系统提示和初始用户消息,但行为诚实,从而隔离了指标与场景级别的混淆因素。 ##### 阶段3:探针训练。 我们从目标模型(GLM-4.7 Flash;47层)的第27层提取残差流激活。对于每个指标,我们在令牌级别的激活上训练一个逻辑回归探针。我们支持两种标注模式:轮次级别,其中指标为正的轮次中的所有令牌被视为正例;片段级别,其中仅提取的证据片段内的令牌为正例。我们默认采用片段级别。 ##### 阶段4:反馈与迭代。 在初始训练轮次后,我们构建一个自动流水线来识别探针在Bloom开发集(§2.3节)上的错误,并生成针对性的额外非策略训练数据来解决这些错误。这个过程使我们能够弥合合成训练数据与目标模型中自然不对齐之间的差距。 ##### 两级不对齐检测。 虽然指标探针廉价且快速,但它们仍然存在误报。相比之下,LLM裁判监控具有高精度,但在部署规模下运行成本高昂。因此,我们将探针与一个*两级级联*配对,该级联使用探针作为预过滤器,并使用LLM裁判作为精确裁决器,遵循在线检测器加离线验证器的标准结构 (Cunninghamet al.,2026 (https://arxiv.org/html/2606.24251#bib.bib32)),仅当两个阶段都同意时才将某轮次报告为不对齐。 - •阶段1(探针过滤器,在线)。在每个助手轮次,我们在模型的推理轨迹上运行全部18个指标探针。如果任何探针超过其调优阈值,则标记该轮次。 - •阶段2(LLM裁决)。每个被标记的轮次被转发给一个LLM裁判,该裁判接收被标记的轮次以及完整的先前对话作为上下文,并发出二元裁决。 ### 2.3 评估协议 我们设计了一个评估协议来测试指标探针。该协议围绕研究问题构建:当汇总时,指标探针能否作为不对齐行为的可靠端到端监控器?评估协议的完整细节在附录C (https://arxiv.org/html/2606.24251#A3) 中,其关键组成部分总结如下。 ##### 评估数据集。 我们在三个互补上进行评估相似文章
它们在思考什么?大语言模型中概念的界定、探测与追踪
本文提出了一种界定概念的方法,并训练线性探测器在大语言模型的嵌入中检测这些概念,以四个示例概念在三个模型上进行验证。该工作旨在实现对LLM内部表示的可扩展监控。
大语言模型不确定性中的人类对齐、校准与激活模式
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。
线性探针在语言模型隐藏状态中检测的是任务格式,而非推理模式
本文证明,基于LLM隐藏状态的线性探针检测到的是任务格式混淆因素(例如来源身份、回答长度),而非不同的推理模式。通过残差化和因果引导,表明高探针准确率源于表面特征,而非计算结构。
大语言模型中词汇对齐与偏好阶段转变的全自动识别
本文提出了两种自动化指标:词汇对齐分数(Lexical Alignment Score)和三角化偏好转变(Triangulated Preference Shift),用于识别大语言模型中的词汇过度使用,并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试,无需人工干预即可重复先前的研究发现。
LLMs中的隐藏潜在状态偏移:为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中
本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。