MechELK:一种用于从大型语言模型中引出潜在知识的机制可解释性框架
摘要
MechELK 是一个三阶段框架,结合机制可解释性工具(SAE、激活修补、因果探测)与表示工程,从大型语言模型中引出潜在知识,实现了84.7%的准确率,优于CCS和线性探测等现有方法。
arXiv:2605.28825v1 公告类型:新
摘要:大型语言模型(LLM)经常在其内部表示中编码事实和推理知识,但这些知识并未在其表面输出中得到忠实反映——这种现象被称为\emph{潜在知识}。现有的引出潜在知识的方法,例如对比一致性搜索(CCS),依赖于对比激活模式,并且在复杂的多步推理任务中表现不佳,而机制可解释性工具主要被用于\emph{理解}模型行为,而非\emph{提取}隐藏知识。我们提出\textbf{MechELK},一个统一的三阶段框架,连接了机制可解释性与潜在知识引出。MechELK通过以下步骤运作:(1)\textbf{定位}——使用稀疏自编码器(SAE)特征分析和激活修补来识别承载知识的表示;(2)\textbf{验证}——采用因果探测来区分真正的潜在知识与虚假相关性;(3)\textbf{引出}——应用表示工程来揭示隐藏知识,而无需修改模型权重。在TruthfulQA、精心策划的Deceptive Alignment基准和Quirky LM数据集上评估,MechELK实现了84.7%的平均引出准确率,比CCS高出6.2%,比直接线性探测高出9.1%。关键的是,在模型表面输出不正确或回避的78.3%案例中,MechELK成功识别了潜在知识,展示了其在包括欺骗性对齐检测在内的AI安全应用中的实用性。
查看缓存全文
缓存时间: 2026/05/29 09:11
# MechELK:一种用于大型语言模型潜在知识提取的机制可解释性框架
来源:https://arxiv.org/html/2605.28825
Ji\-jun Park, Soo\-joon Choi, Jiwon Jeong, Taeyang Yoon, Ju\-Wan Lee 东国大学 kwanlee14@dongguk\.edu
###### 摘要
大型语言模型(LLMs)经常在其内部表示中编码事实性和推理知识,但这些知识并未在其表面输出中得到忠实反映——这种现象称为*潜在知识*。现有的潜在知识提取方法,如对比一致性搜索(CCS),依赖于对比激活模式,在处理复杂的多步推理任务时表现不佳,而机制可解释性工具主要用于*理解*模型行为,而非*提取*隐藏知识。我们提出MechELK,这是一个统一的三阶段框架,弥合了机制可解释性与潜在知识提取之间的鸿沟。MechELK通过以下步骤运作:(1)**定位**——利用稀疏自编码器(SAE)特征分析和激活修补识别承载知识的表示;(2)**验证**——采用因果探针区分真正的潜在知识与虚假相关性;(3)**提取**——应用表示工程在不修改模型权重的情况下将隐藏知识浮现到表面。在TruthfulQA、精心策划的欺骗性对齐基准和Quirky LM数据集上评估,MechELK的平均提取准确率达到84.7%,优于CCS 6.2%,优于直接线性探针9.1%。关键的是,在模型表面输出错误或回避的情况下,MechELK成功识别了78.3%的潜在知识,展示了其在AI安全应用(包括欺骗性对齐检测)中的实用性。
## 1 引言
大型语言模型(LLMs)与人类价值观的对齐不仅取决于这些模型*说*了什么,还取决于它们内部*知道*什么。越来越多的证据表明,LLMs通常在其中间表示中编码了准确的事实性和推理知识,但却未能——或拒绝——在输出中表达这些知识(Kadavathet al.,2022 (https://arxiv.org/html/2605.28825#bib.bib7); Linet al.,2021 (https://arxiv.org/html/2605.28825#bib.bib18); Greenblattet al.,2024 (https://arxiv.org/html/2605.28825#bib.bib19))。随着这些模型越来越多地集成到复杂应用中,例如口语任务导向对话代理(Siet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib37))、全能生成与理解系统(Xinet al.,2025 (https://arxiv.org/html/2605.28825#bib.bib33))以及多智能体递归框架(Zhanget al.,2025 (https://arxiv.org/html/2605.28825#bib.bib35)),确保可靠的对齐比以往任何时候都更加关键。内部知识与外部行为之间的这种差距对AI安全构成了根本挑战:如果模型可以“知道”某事却不“说”出来,那么依赖输出检查的标准评估方法就不足以评估模型的真实能力或意图。
*潜在知识提取*(ELK)问题由Mallenet al.(2023 (https://arxiv.org/html/2605.28825#bib.bib12))正式提出,他们提出了对比一致性搜索(CCS)作为一种无需依赖模型自身输出即可从模型激活中恢复隐藏信念的方法。虽然CCS代表了重大进展,但它面临若干局限:它需要精心构建的对比对,其性能在复杂多步推理和长时间跨度任务中会下降(Zhouet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib40); Siet al.,2025b (https://arxiv.org/html/2605.28825#bib.bib38)),尤其是在导航长上下文对齐时(Siet al.,2025a (https://arxiv.org/html/2605.28825#bib.bib36)),并且它无法区分真正潜在的、未被表达的知识与模型根本不拥有的知识。与此同时,机制可解释性领域已经开发出强大的工具来理解LLMs*如何*处理信息——包括用于分解多语义表示的稀疏自编码器(SAEs)(Cunninghamet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib9); Gaoet al.,2024 (https://arxiv.org/html/2605.28825#bib.bib10))、用于因果归因的激活修补(Menget al.,2022 (https://arxiv.org/html/2605.28825#bib.bib4); Conmyet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib21))以及用于定向干预的表示工程(Zouet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib42))。然而,这些工具主要应用于*解释*模型行为,而非*提取*隐藏知识。
我们认为机制可解释性与潜在知识提取是深度互补的:前者提供了定位和表征知识表示的精密工具,而后者则提供了有目的地进行此操作的动机和评估框架。本文提出MechELK(机制可解释的潜在知识提取),这是一个将这些研究线索整合为连贯流程的统一框架。
我们的贡献如下:
- •我们提出了MechELK,这是第一个系统性地应用机制可解释性工具——SAE特征分析、激活修补和表示工程——来解决潜在知识提取问题的框架,提供了原则性的三阶段“定位-验证-提取”流程。
- •我们引入了一种*因果知识得分*(CKS),这是一种新颖的度量,量化了已识别特征对知识表达的因果贡献,从而能够可靠地区分真正的潜在知识与虚假相关性。
- •我们证明了MechELK在三个基准上达到了最先进的提取准确率,平均优于CCS 6.2%,尤其是在欺骗性对齐检测方面取得了显著优势(+11.4%)。
- •我们提供了对失败模式的广泛分析,表明MechELK的验证阶段相比直接探针方法将假阳性降低了34%,并刻画了最可靠恢复潜在知识的条件。
## 2 相关工作
#### 机制可解释性。
机制可解释性旨在以逆向工程的方式理解神经网络在个体组件层面实现的算法。Elhageet al.(2022 (https://arxiv.org/html/2605.28825#bib.bib11))的基础工作表明,神经网络通过*叠加*实现了比维度更多的特征表示,这促使稀疏自编码器(SAEs)的发展,作为将多语义神经元分解为单语义特征的工具(Cunninghamet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib9); Gaoet al.,2024 (https://arxiv.org/html/2605.28825#bib.bib10)),这一机制在概念上与更广泛领域中的混合特征提取和降维相关(Liet al.,2025 (https://arxiv.org/html/2605.28825#bib.bib34))。电路级分析已经识别出负责事实回忆(Wanget al.,2023 (https://arxiv.org/html/2605.28825#bib.bib2))、归纳(Olssonet al.,2022 (https://arxiv.org/html/2605.28825#bib.bib3))和算术(Nandaet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib23))的特定注意力头和MLP层。激活修补(Menget al.,2022 (https://arxiv.org/html/2605.28825#bib.bib4);2023 (https://arxiv.org/html/2605.28825#bib.bib5))及其可扩展变体归因修补(Conmyet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib21))能够将模型行为因果归因于特定组件。前馈层已被证明起到键值存储器的作用(Gevaet al.,2020 (https://arxiv.org/html/2605.28825#bib.bib16)),并且单个神经元可以被归因于特定的事实关联(Daiet al.,2021 (https://arxiv.org/html/2605.28825#bib.bib17); Yu and Ananiadou,2023 (https://arxiv.org/html/2605.28825#bib.bib13))。我们的工作建立在此基础设施之上,但将其目标转向知识提取而非仅仅解释。此外,基础可解释性原则正越来越多地弥合与多模态对齐和参数高效多任务迁移之间的差距(Xinet al.,2024b (https://arxiv.org/html/2605.28825#bib.bib31);a (https://arxiv.org/html/2605.28825#bib.bib32))。
#### 潜在知识与真实性。
LLMs“知道”什么与“说”什么的问题越来越受到关注。Kadavathet al.(2022 (https://arxiv.org/html/2605.28825#bib.bib7))表明,模型通常对其自身不确定性有校准,而Linet al.(2021 (https://arxiv.org/html/2605.28825#bib.bib18))证明了模型输出中存在系统性的真实性失败。ELK问题由Mallenet al.(2023 (https://arxiv.org/html/2605.28825#bib.bib12))形式化,他们展示了经过怪异微调的模型即使在训练给出错误答案时也会保留正确答案的潜在知识。这种潜在提取与弱到强泛化范式共享动机,后者利用较弱的监督信号来激发高级模型的潜在多能力(Zhouet al.,2025 (https://arxiv.org/html/2605.28825#bib.bib39))。探针分类器(Belinkov,2021 (https://arxiv.org/html/2605.28825#bib.bib14))提供了一种轻量级的方法来从表示中提取信息,但受到一个混淆因素的影响:探针可能检测到表面统计特征而非真正的知识(Gevaet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib6))。线性表示假说(Parket al.,2023 (https://arxiv.org/html/2605.28825#bib.bib15))为线性探针为何能恢复有意义的信息提供了理论基础,同时也指出了其局限性。我们的验证阶段通过因果干预来应对探针混淆问题。
#### 表示工程与引导。
表示工程(RepE)(Zouet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib42))证明,诸如诚实和情感之类的高级概念被编码为激活空间中的线性方向,并且这些方向可用于引导模型行为。相关的工作包括激活引导(Lanhamet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib8))和后继头(Gouldet al.,2023 (https://arxiv.org/html/2605.28825#bib.bib29)),它们进一步刻画了内部表示的几何结构。表示结构与模型行为之间的联系也通过对齐伪装(Greenblattet al.,2024 (https://arxiv.org/html/2605.28825#bib.bib19))和沉睡代理(Hubingeret al.,2024 (https://arxiv.org/html/2605.28825#bib.bib20))的探讨得到了探索,这激发了我们的框架在安全方面的应用。类似的表示优化和对齐方法也正被积极应用于纠正自回归生成任务中的条件错误(Zhouet al.,2026 (https://arxiv.org/html/2605.28825#bib.bib41))。与侧重于引导模型行为的RepE不同,MechELK将表示工程用作因果基础提取流程的最终阶段。
## 3 MechELK:框架与方法论
### 3.1 问题形式化
设M\\mathcal\{M\}表示一个预训练的自回归语言模型,具有LL个Transformer层。对于输入提示xx,令hx\(l\)∈Rd\\mathbf\{h\}^\{\(\\ell\)\}\_\{x\}\\in\\mathbb\{R\}^\{d\}表示层l∈{1,...,L}\\ell\\in\\{1,\\ldots,L\\}处最终标记位置的残差流激活。我们定义一个*知识查询*q=\(x,y∗,Y\)q=\(x,y^\{\*\},\\mathcal\{Y\}\),其中xx是自然语言问题,y∗∈Yy^\{\*\}\\in\\mathcal\{Y\}是真实答案,Y\\mathcal\{Y\}是答案空间。
###### 定义1(潜在知识)。
如果存在一个层l∗\\ell^\{\*\}和一个线性泛函φ:Rd→R\\phi:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\},使得以下条件成立,则称模型M\\mathcal\{M\}拥有关于事实\(x,y∗\)\(x,y^\{\*\}\)的*潜在知识*:
φ\(hxy∗\(l∗\)\)\>φ\(hxy\(l∗\)\)∀y∈Y∖\{y∗\},\\phi\(\\mathbf\{h\}^\{\(\\ell^\{\*\)\}\)\}\_\{x\_\{y^\{\*\}\}\}\)\>\\phi\(\\mathbf\{h\}^\{\(\\ell^\{\*\)\}\)\}\_\{x\_\{y\}\}\)\\quad\\forall y\\in\\mathcal\{Y\}\\setminus\\\{y^\{\*\}\\\}, (1)
其中xyx\_\{y\}表示将候选答案yy与提示xx拼接,但在标准解码下M\(x\)≠y∗\\mathcal\{M\}\(x\)\\neq y^\{\*\}。
该定义捕捉了直觉:当模型的内部表示编码了正确答案,即使输出分布未反映出来时,潜在知识便存在。挑战在于高效且可靠地找到层l∗\\ell^\{\*\}和泛函φ\\phi。
###### 定义2(因果知识得分)。
给定知识查询qq和层l\\ell处的候选特征方向v∈Rd\\mathbf\{v\}\\in\\mathbb\{R\}^\{d\},*因果知识得分*(CKS)定义为:
CKS\(v,l,q\)=Ey∈Y\[∂logPM\(y∗∣x\)∂α\|α=0\],\\text\{CKS\}\(\\mathbf\{v\},\\ell,q\)=\\mathbb\{E\}\_\{y\\in\\mathcal\{Y\}\\}\\left\[\\frac\{\\partial\\log P\_\{\\mathcal\{M\}\}\(y^\{\*\}\\mid x\)\}\{\\partial\\alpha\}\\bigg\|\_\{\\alpha=0\}\\right\], (2)
其中期望是对一个修补干预hx\(l\)←hx\(l\)\+αv\\mathbf\{h\}^\{\(\\ell\)\}\_\{x\}\\leftarrow\\mathbf\{h\}^\{\(\\ell\)\}\_\{x\}\+\\alpha\\mathbf\{v\}在残差流上的应用。高CKS表明方向v\\mathbf\{v\}因果地介导了正确答案y∗y^\{\*\}的表达。
CKS扩展了标准激活修补(Menget al.,2022 (https://arxiv.org/html/2605.28825#bib.bib4)),它测量的是特定特征向量的*方向性*因果效应,而非替换整个激活的总效应。这使得我们可以将知识表达归因于特定的SAE特征,而非整个层。
### 3.2 框架概述
MechELK是一个三阶段流程。给定知识查询qq,框架进行如下:(1)**定位**阶段识别最因果负责编码该知识的层和特征方向;(2)**验证**阶段应用因果探针,确认已识别特征编码的是真正的知识而非虚假相关性;(3)**提取**阶段使用表示工程将潜在知识浮现为可观察的输出。
### 3.3 阶段1:定位
定位阶段旨在识别与查询qq相关的知识编码最强的层l∗\\ell^\{\*\}和特征方向v∗\\mathbf\{v\}^\{\*\}。该阶段结合了基于SAE的特征分解和激活修补,以实现可解释性和因果基础。
#### SAE特征分解。
对于每个层l\\ell,我们应用一个预训练的稀疏自编码器Sl:Rd→Rn\\mathcal\{S\}\_\{\\ell\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{n\}(其中n≫dn\\gg d)将残差流激活分解为可解释特征的稀疏组合:
hx\(l\)^=Wdec⋅ReLU\(Wenchx\(l\)\+benc\)\+bdec,\\hat\{\\mathbf\{h\}^\{\(\\ell\)\}\_\{x\}\}=\\mathbf\{W\}\_\{\\text\{dec\}\}\\cdot\\text\{ReLU\}\(\\mathbf\{W\}\_\{\\text\{enc\}\}\\mathbf\{h\}^\{\(\\ell\)\}\_\{x\}\+\\mathbf\{b\}\_\{\\text\{enc\}\}\)\+\\mathbf\{b\}\_\{\\text\{dec\}\}, (3)
其中Wenc∈Rn×d\\mathbf\{W\}\_\{\\text\{enc\}\}\\in\\mathbb\{R\}^\{n\\times d\}和Wdec∈Rd×n\\mathbf\{W\}\_\{\\text\{dec\}\}\\in\\mathbb\{R\}^\{d\\times n\}分别是编码器和解码器权重矩阵。稀疏激活向量fl\(x\)=ReLU\(Wenchx\(l\)\+benc\)∈Rn\\mathbf\{f\}\_\{\\ell\}\(x\)=\\text\{ReLU\}\(\\mathbf\{W\}\_\{\\text\{enc\}\}\\mathbf\{h\}^\{\(\\ell\)\}\_\{x\}\+\\mathbf\{b\}\_\{\\text\{enc\}\}\)\\in\\mathbb\{R\}^\{n\}标识了输入xx在层l\\ell处活跃的特征。
为了识别与知识相关的特征,我们计算*特征差异*...相似文章
应用于大语言模型的可解释性研究:对比分析
一项对比研究,评估了三种可解释性技术(Integrated Gradients、Attention Rollout、SHAP)在微调 DistilBERT 模型上的表现,用于情感分类任务,重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。
论大语言模型的固有可解释性:设计原则和架构调查
一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。
解构并引导大型语言模型中的功能性元认知
本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。
多模态大语言模型内部视觉表征的因果探针
本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架,揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要,并揭示了当前多模态大语言模型在感知与推理之间的脱节。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。