它们在思考什么？大语言模型中概念的界定、探测与追踪

arXiv cs.CL 2026/05/29 04:00 论文

摘要

本文提出了一种界定概念的方法，并训练线性探测器在大语言模型的嵌入中检测这些概念，以四个示例概念在三个模型上进行验证。该工作旨在实现对LLM内部表示的可扩展监控。

arXiv:2605.28823v1 Announce Type: new 摘要：随着大语言模型（LLM）影响力的扩大，深入理解其决策过程变得至关重要。一种实现方式是开发探测器，用于检测LLM计算出的嵌入中是否存在广泛的概念——这可以理解为模型正在“思考”的内容。此类探测器应成本低廉且易于应用于任何LLM，以便在正常运行期间能对多种概念进行监控。本文迈出了开发此类探测器能力的第一步，通过定义并执行关键任务的示例：首先，通过创建同时包含概念存在与缺失的数据集来精准界定概念；其次，训练并测试一组线性探测器，用于在LLM的任意层检测概念，并探讨所需探测器的复杂性；最后，展示此类探测器能在更大上下文中追踪概念。我们选取了四个不同的概念和三种不同的LLM进行验证。当该方法扩展到更多概念时，将能轻松监控新模型。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:10

# 它们在想什么？LLM 中概念的界定、探测与追踪  
来源：https://arxiv.org/html/2605.28823  

Mohamed Abdelwahab44footnotemark:4Michelle Yu CollinsSihan ChenYi Cheng Zhao Zafarullah MahmoodJiading ZhuSoliman AliJonathan Rose  
The Edward S. Rogers Sr. Department of Electrical and Computer Engineering University of Toronto  

###### 摘要  

随着 LLM 影响力的不断扩大，深入了解其决策过程变得至关重要。实现这一目标的一种方法是开发探测工具，用于检测 LLM 计算出的嵌入中是否存在广泛的概念——这可以说是模型在“思考”的内容。此类探测应成本低廉且易于应用于任何 LLM，以便在正常运行期间监控多种概念。在本文中，我们通过定义并执行所需关键任务的实例，迈出了构建此类大规模探测能力的第一步：首先，通过创建同时包含概念存在与不存在的数据集来*精心界定*一个概念；然后，训练并测试一组线性探测，以检测 LLM 任何层上的概念，包括对所需探测复杂度的探索；最后，我们展示了此类探测能够追踪跨更大上下文的概念。本文针对四个独立概念和三种不同的 LLM 完成了上述过程。当这一过程扩展到更多概念时，将能够轻松监控新模型。  

# 它们在想什么？LLM 中概念的界定、探测与追踪  

Mohamed Abdelwahab44footnotemark:4Michelle Yu Collins Sihan Chen Yi Cheng ZhaoZafarullah MahmoodJiading ZhuSoliman AliJonathan Rose  
The Edward S. Rogers Sr. Department of Electrical and Computer EngineeringUniversity of Toronto  

$\\mathsection$$\\mathsection$footnotetext:通讯作者：[email protected] (https://arxiv.org/html/2605.28823v1/mailto:[email protected])  

## 1 引言  

大型语言模型（LLM）似乎像*概念机器*一样运作：它们从输入中推断出隐含的概念（在多个抽象层次上），这些概念随后成为生成输出的驱动力。事实上，目前已经充分认识到，可以利用线性探测在 LLM 的内部嵌入中检测到多种概念（Conneau 等，2018 (https://arxiv.org/html/2605.28823#bib.bib24)；Hupkes 和 Zuidema，2018 (https://arxiv.org/html/2605.28823#bib.bib25)）。这些概念包括词性标签、动词时态（Liu 等，2019 (https://arxiv.org/html/2605.28823#bib.bib33)；Ravishankar 等，2019 (https://arxiv.org/html/2605.28823#bib.bib34)；Arps 等，2022 (https://arxiv.org/html/2605.28823#bib.bib35)；Hewitt 和 Manning，2019 (https://arxiv.org/html/2605.28823#bib.bib36)；Durrani 等，2020 (https://arxiv.org/html/2605.28823#bib.bib30)；Tenney 等，2019 (https://arxiv.org/html/2605.28823#bib.bib31)；Kim 等，2019 (https://arxiv.org/html/2605.28823#bib.bib32)），以及时间、物理位置（Gurnee 和 Tegmark，2024 (https://arxiv.org/html/2605.28823#bib.bib37)）和真实性（Burns 等，2024 (https://arxiv.org/html/2605.28823#bib.bib38)）。还有许多其他重要概念需要识别其存在与否，因此本工作的目标是原型化创建一组可用于监控 LLM 的探测工具所需的步骤。  

第一步是选择下游监控任务所需的一组概念。在此初始步骤中，我们选取了人类活动这一总体目标，并（多少有些随意地）选择了抱负、调查、民主和嫉妒这几个概念。下一步是基于原型理论（Ren 和 Wei，2019 (https://arxiv.org/html/2605.28823#bib.bib73)）为*概念*一词建立一个可操作的定义：概念是由一组用于判断其成员资格的特征所表征的实体。最后，我们用“概念的界定”一词来表示为被视为体现概念和不体现概念的实例创建标注标签的方法。  

参考图注  
图 1：在 Llama-3-8B 的第 13 层中，对每个单词在扩展上下文中的抱负探测输出  

为了说明这些探测工具在监控中的应用，我们展示了它们如何在输入上下文中添加更多单词时，追踪 LLM 嵌入中概念的起伏变化。例如，图 1 (https://arxiv.org/html/2605.28823#S1.F1) 通过一个训练用于检测Llama-3-8B 模型中*抱负*概念的探测工具展示了这一点。该探测应用于一个不断扩展的输入序列的最终嵌入，该嵌入取自第 13 个 transformer 层。X 轴表示输入词元（以完整单词呈现），Y 轴表示在序列中每个新单词之后，对嵌入计算得到的 sigmoid 输出值。我们将探测输出大于 0.5 视为概念存在，输出小于 0.5 视为概念不存在。图中的彩色阴影表示*整个*句子的标签：绿色表示存在抱负，红色表示不存在。图中的句子取自一个三段故事的中段，阅读它们并与探测输出进行比较会很有启发。我们观察到，当新添加的词跨度暗示抱负时，探测输出上升至 0.5 以上；一旦后续上下文不再暗示，探测输出则降至 0.5 以下。  

先前的工作已经探索了在 LLM 中检测概念，包括使用稀疏自编码器（SAE）（Cunningham 等，2023 (https://arxiv.org/html/2605.28823#bib.bib43)；Bricken 等，2023 (https://arxiv.org/html/2605.28823#bib.bib20)；Lieberum 等，2024 (https://arxiv.org/html/2605.28823#bib.bib22)；Rajamanoharan 等，2024 (https://arxiv.org/html/2605.28823#bib.bib44)；Templeton 等，2024 (https://arxiv.org/html/2605.28823#bib.bib21)）来检测 LLM 中的大量概念。该方法通过对 SAE 进行无监督训练，使其从大量（强制）稀疏表示中重建内部嵌入。这种方法创建了许多概念检测器，但缺少与我们的“界定”阶段等效的步骤，在该阶段中，我们选择特定概念并排除所有其他概念。SAE 不允许控制能够检测到的概念，这在信任问题上尤其成问题。此外，训练的计算成本非常高，并且每遇到一个新模型就必须重复训练。相比之下，我们的方法只为每个概念构建一次界定数据集，从而能够在*任何模型*上以低成本训练探测工具。  

另一种概念检测方法由 Zou 等（2023 (https://arxiv.org/html/2605.28823#bib.bib19)）提出，通过明确指示 LLM 识别一个命名概念来直接指定该概念。然而，这使其不适用于持续监控，因为检测需要单独的 LLM 调用。  

在本工作中，我们为四个隐含概念——抱负、调查、民主和嫉妒——创建了探测工具，通过构建一个包含每个概念存在/不存在验证标签的数据集来实现。这些标签作为在 LLM 嵌入中检测概念的基准真相。该方法所需的训练量远少于 SAE，并且允许直接指定要研究的概念。  

本文的主要贡献如下：(1) 我们提出了一种基于 LLM 的半自动方法，通过为指定概念创建文本实例的二元数据集来界定该概念。该方法旨在抑制可能无意中泄露标签的模式；(2) 我们通过在二元数据集上训练线性探测来说明界定方法的实用性，并显示这些探测达到了良好的准确率；(3) 我们展示了如何将探测的大小限制在 80 个参数以内，同时仍能保持良好的准确率；(4) 我们展示了如何利用探测来观察模型嵌入中概念随输入上下文单词添加而起伏变化的情况，说明了其作为低成本持续监控工具的应用；(5) 我们提供了所创建的数据集供他人使用。由于每个数据集可以在任何 LLM 上重复使用以构建探测，我们相信这为选择和界定众多此类可重用概念数据集以推进 LLM 可解释性研究提供了动力。  

## 2 背景与相关工作  

### 2.1 LLM 中的概念  

多项研究探索了 LLM 中概念的存在。Shani 等（2023 (https://arxiv.org/html/2605.28823#bib.bib17)）和 Liao 等（2023 (https://arxiv.org/html/2605.28823#bib.bib18)）调查了 LLM 对概念层次结构的知识。Shani 等（2023 (https://arxiv.org/html/2605.28823#bib.bib17)）使用零样本提示（Brown 等，2020 (https://arxiv.org/html/2605.28823#bib.bib1)），直接询问模型某个概念是否属于另一个更广泛概念的范畴。相比之下，Liao 等（2023 (https://arxiv.org/html/2605.28823#bib.bib18)）向模型呈现表达概念关系的陈述，并探测其嵌入以评估这些关系的有效性。Zou 等（2023 (https://arxiv.org/html/2605.28823#bib.bib19)）通过提示模型识别输入示例中的特定概念，提取嵌入来探索 LLM 中的概念。他们对这些嵌入应用 PCA（Pearson，1901 (https://arxiv.org/html/2605.28823#bib.bib26)；Hotelling，1933 (https://arxiv.org/html/2605.28823#bib.bib27)）以推导出一个“概念向量”。为了在新输入中检测该概念，他们使用相同的提示提取嵌入，并通过点积测量其与概念向量的对齐程度。然而，这种方法不适合持续概念监控，因为检测需要单独的 LLM 调用。  

Cunningham 等（2023 (https://arxiv.org/html/2605.28823#bib.bib43)）、Bricken 等（2023 (https://arxiv.org/html/2605.28823#bib.bib20)）、Lieberum 等（2024 (https://arxiv.org/html/2605.28823#bib.bib22)）、Rajamanoharan 等（2024 (https://arxiv.org/html/2605.28823#bib.bib44)）和 Templeton 等（2024 (https://arxiv.org/html/2605.28823#bib.bib21)）使用 SAE 将 LLM 嵌入解耦为对应于各个概念的多个维度。SAE 经过无监督训练，因此概念是在事后使用基于 LLM 的自动化方法（Bills 等，2023 (https://arxiv.org/html/2605.28823#bib.bib29)）进行识别的。因此，提取的概念无法预先指定，无法保证跨模型的一致性，并且 SAE 需要大规模训练（每个 SAE 超过 10 亿个示例）。此外，也无法保证解耦效果。因此，SAE 不适合对 LLM 推断概念进行专门的调查研究。  

我们的工作提出了一种基于探测的方法，利用为特定概念构建的数据集在 LLM 中执行概念检测。该方法能够跨模型探索这些概念，所需的训练量远少于 SAE，并且最小化了将模型引向目标概念的风险。它还使得能够以低成本监控模型嵌入中概念如何在生成过程中随上下文扩展而起伏变化。  

### 2.2 线性 LLM 探测  

LLM 探测已被用于研究 LLM 在训练过程中获得的属性，方法是使用一个单独的模型，根据 LLM 嵌入进行预测。探测通常是一个分类器模型，经过训练以检测特定属性。如果探测达到合理的准确率，则表明该属性在 LLM 中被编码。探测首次应用于早期的 transformer 模型，如 BERT（Devlin 等，2019 (https://arxiv.org/html/2605.28823#bib.bib4)），以探索它们是否编码了词性标签和主要动词时态等语言属性（Liu 等，2019 (https://arxiv.org/html/2605.28823#bib.bib33)；Ravishankar 等，2019 (https://arxiv.org/html/2605.28823#bib.bib34)；Arps 等，2022 (https://arxiv.org/html/2605.28823#bib.bib35)；Hewitt 和 Manning，2019 (https://arxiv.org/html/2605.28823#bib.bib36)；Durrani 等，2020 (https://arxiv.org/html/2605.28823#bib.bib30)；Tenney 等，2019 (https://arxiv.org/html/2605.28823#bib.bib31)；Kim 等，2019 (https://arxiv.org/html/2605.28823#bib.bib32)）。最近，探测已被用于探索 LLM 中时间、空间和真实性的编码（Gurnee 和 Tegmark，2024 (https://arxiv.org/html/2605.28823#bib.bib37)；Burns 等，2024 (https://arxiv.org/html/2605.28823#bib.bib38)）。  

## 3 LLM 中概念的检测与追踪  

我们使用线性探测分类器来检测 LLM 中的概念，并说明这些概念如何在模型嵌入中随着输入上下文的扩展而起伏变化。通过这种方式，它们可以用于监控 LLM 是否在“思考”特定概念。  

### 3.1 LLM 中概念的推断  

探测的训练需要为某个概念准备一个二元文本示例数据集。概念应该在正例中*存在*，在负例中*不存在*。这些示例被输入 LLM 以提取嵌入，然后用于训练和评估探测分类器。  

#### 3.1.1 概念数据集创建  

表 1：使用示例模板为 Ambition 数据集创建的示例对  

在为一个概念创建二元数据集时，目标是确保正例和负例仅在概念存在与否上有所不同，而不无意中包含任何可能“泄露”标签的模式（Geirhos 等，2019 (https://arxiv.org/html/2605.28823#bib.bib47)；Xiao 等，2021 (https://arxiv.org/html/2605.28823#bib.bib46)；Wang 和 Wang，2024 (https://arxiv.org/html/2605.28823#bib.bib45)）。这是通过使用独立于任何特定概念创建的文本示例模板来实现的。然后，我们按照模板的语言结构生成一对示例，其中一个示例中存在该概念，另一个示例中不存在该概念。表 1 (https://arxiv.org/html/2605.28823#S3.T1) 显示了一个示例模板以及由它生成的一个正-负示例对；更多示例见附录 A (https://arxiv.org/html/2605.28823#A1)。  

参考图注  
图 2：在限制标签泄露的情况下创建概念数据集  

我们从基于 Project Gutenberg（Faysse，n.d. (https://arxiv.org/html/2605.28823#bib.bib54)；Project Gutenberg，n.d. (https://arxiv.org/html/2605.28823#bib.bib51)）的数据集中获取模板，Project Gutenberg 是一个免费电子书库。英文书籍中的段落被分割成句子，并通过随机选择一个到三个连续句子来形成模板。我们去除了包含不完整句子、错误单词或数字的模板，以及不以人类主体为中心的模板，因为本工作关注的是与人类相关的概念。使用提示 LLM111我们使用 gpt-4o-2024-08-06（OpenAI，2024 (https://arxiv.org/html/2605.28823#bib.bib50)）进行所有提示生成器和分类器。进行过滤。所使用的提示以及本文中使用的所有其他提示均在附录 B (https://arxiv.org/html/2605.28823#A2) 中提供。我们创建了一组 30,000 个模板，可用于重复创建任何特定概念的数据集。  

为了为一个特定概念创建数据集，首先按照第 1 节 (https://arxiv.org/html/2605.28823#S1) 中*概念*的定义，将该概念定义为具有特定特征。然后将此定义提供给同一个 LLM 的两个实例：一个被提示生成正例（概念存在）示例，另一个被提示生成负例（概念不存在）示例。提示指示模型模仿给定示例模板的结构，同时改变语义以反映概念的存在或不存在。我们通过指示 LLM 生成示例来使生成的示例多样化。

它们在思考什么？大语言模型中概念的界定、探测与追踪

相似文章

Polar Probe线性解码LLM中的语义结构

线性探针在语言模型隐藏状态中检测的是任务格式，而非推理模式

上下文学习运作于概念子空间学习

接地鸿沟：大语言模型如何以不同于人类的方式锚定抽象概念的含义

大语言模型中欺骗探测探头的压力测试：可伸缩性、鲁棒性与欺骗表征的几何特性

提交意见反馈