对抗性概念搜索：从特征几何预测组合错误

arXiv cs.AI 2026/06/15 04:00 论文

adversarial concept-search compositional-generalization feature-geometry llm error-prediction

摘要

本文提出对抗性概念搜索（Adversarial Concept Search），一种利用大型语言模型表示几何来预测组合性失败的方法，无需评估特定输入。该方法通过测量显著特征之间的干扰来识别高风险场景。

arXiv:2606.13934v1 公告类型：新摘要：人类并不总能直观地判断哪些场景对大语言模型最具挑战性。为了捕捉困难的边界案例，开发者要么设计对人类来说困难的问题，要么整理广泛的基准数据集。如果我们能预先预测模型会在哪些场景上失败呢？本文利用大语言模型的表示几何来预测它将失败的概念组合。我们将这种组合失败归因于显著特征之间的干扰。在需要系统性组合的任务中——简易编程环境、多跳推理、多语言事实检索——我们发现，当一对概念以近似正交的方式编码时，模型能可靠地组合它们。当它们的线性编码接近并产生干扰时，模型则无法组合。我们的方法能够可靠地预测不同组合任务中的失败模式，而无需评估特定输入。这些结果奠定了利用表示几何识别高风险样本、构建针对性压力测试，并为实际部署中的主动学习提供可扩展基础的工作。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:10

# 对抗性概念搜索：从特征几何预测组合错误

来源：https://arxiv.org/html/2606.13934

Jennifer Meng Lu  
布朗大学  
[email protected]

&Ruochen Zhang  
布朗大学  
[email protected]

&Isabelle Lee  
南加州大学  
[email protected]

&David Alvarez-Melis  
哈佛大学  
[email protected]

&Ellie Pavlick  
布朗大学  
[email protected]

&Naomi Saphra  
波士顿大学  
[email protected]

###### 摘要

人类并不总能直觉地判断哪些场景对 LLM 最具挑战性。为了捕捉具有挑战性的边缘情况，开发者要么设计对人类困难的问题，要么策划广泛的基准测试。如果我们能提前预测模型会在哪些场景下失败呢？在本文中，我们利用 LLM 的表示几何来预测它会失败的概念组合。我们将这种组合失败归因于显著特征之间的干扰。在需要系统组合的任务中——玩具编程设置、多跳推理、多语言事实回忆——我们发现，当一对概念的编码接近正交时，模型能够可靠地组合它们。当它们的线性编码接近，产生干扰时，模型则无法组合它们。我们的方法能够在不同的组合任务中可靠地预测失败模式，而无需评估特定输入。这些结果奠定了使用表示几何来识别高风险示例、构建有针对性的压力测试、并为实际部署中的可扩展主动学习提供基础。

## 1 引言

随着大型语言模型（LLM）在广泛的任务和领域上不断改进，识别剩余挑战变得越来越困难。由于人类无法可靠地预测哪些概念组合会对 LLM 构成挑战，这种理解上的差距使得数据集策展效率低下，并限制了我们的预测 LLM 故障模式的能力。开发者要么设计对人类——而非 LLM——困难的问题，要么策划广泛的基准测试，希望覆盖信息丰富的边缘情况。如果我们能提前预测单个模型会在哪些场景下失败呢？

![图1](图1说明：原子概念表示之间的角度识别了最具挑战性的组合，从而能够在不评估特定输入的情况下跨组合空间预测失败。)

我们将此目标称为**对抗性概念搜索**(ACS)：识别可能引发模型失败的有意义概念场景的任务，而无需评估实例化这些场景的特定输入。在本文中，我们通过预测**组合泛化**的失败来高效地识别对抗性场景，特别是系统性[21,29]。如果一个系统能够成功地将已知的原子概念重新组合成训练期间未观察到的新配置，那么它就具有组合泛化能力。例如，如果训练分布包含“黑狗”和“白猫”，一个组合模型将可靠地处理“黑猫”。这种能力对于在分布外（OOD）设置中稳健表现至关重要。通过映射这些组合能力，我们可以系统地构建自定义挑战集，以进行高效、有针对性的压力测试。作为实际演示，我们成功利用模型的内部表示几何来预测其在未测试场景中的失败。与现有的错误预测方法（如用于主动学习的方法[43]）不同，我们不需要模型处理的特定输入。在为语言建模等半监督设置策展数据集时，此类方法的实际用途有限。在这些设置中，我们缺乏多样化的现有输入，并且受到生成和处理每个可能输入的成本的限制。我们的方法则仅从涉及的概念描述及其原子表示来预测错误。这个工具允许开发者优先生成或收集连贯、具有挑战性的输入。例如，对于一个多语言 LLM，专业地将所有英语语料翻译成俄语可能成本过高，但通过识别哪些概念会产生俄语错误，我们可以优先在问题区域（如“俄罗斯著名死亡事件”）收集俄语数据。

在多个任务中，我们将根据其原子概念的几何来预测这些组合错误。这些预测基于我们的假设：当以**叠加**方式存储的特征引起干扰时，模型会犯错。LLM 依赖于叠加[6,18]通过在有限的维度中共享线性方向来编码许多特征。已有研究表明，即使没有正交特征编码，只要特征激活是稀疏的，这种压缩在原理上可以是完美无损的——即可逆的[12]。然而，在实践中，我们认为模型学习的是其输入特征的**有损**编码：当多个非正交特征编码同时激活时，它们会相互干扰并损害模型性能。这种干扰在组合设置中尤其突出，因为多个任务相关特征必须被联合表示。我们假设 LLM 的失败可能源于原子概念表示之间的几何干扰，并且这些失败可以从编码特征方向之间的角度来预测。我们的概念模型可以利用表示几何主动识别失败案例，为动态压力测试和可扩展的主动学习铺平道路。

我们的贡献如下：

1.  **有损叠加中组合干扰的描述与分析。** 我们将组合错误归因于非正交原子概念表示之间的干扰。由于一次只有少数特征激活，先前的理论认为，即使特征以叠加方式编码，理想的解码器也可以恢复激活的特征。我们假设，当解码是有损的时，恢复误差由被组合特征之间的干扰控制。
2.  **受控环境中的概念验证 (SCAN)。** 我们在 SCAN[32]（一个合成的组合泛化基准）中验证了这一假设。在这个受控环境中，我们测量了概念表示之间的成对交互，并表明较小的角度与组合错误相关。这一结果在各种数据条件和模型大小中成立，证实了干扰与失败之间的预测关系。
3.  **预测真实 LLM 中的组合失败。** 我们成功地从构成概念之间的几何干扰预测了现实 LLM 任务中的成功组合泛化。在多跳问答中，单个跳表示之间的角度预测了 LLM 能否成功组合它们。在多语言事实回忆中，事实表示与语言子空间之间的角度预测了检索准确率。在这两种设置中，我们发现原子表示之间更大的分离对应于更可靠的组合，这表明表示几何可以在不评估组合任务本身的情况下预测组合失败。这为识别具有挑战性的输入场景和指导实际部署中的主动学习奠定了可扩展的基础。

## 2 组合性与有损叠加

我们首先解释为什么 LLM 可能无法组合非正交的特征表示，然后解释如何利用这一现象进行错误预测。长期以来，组合性与正交的原子特征表示相关[45]，但现代特征叠加理论允许从非正交编码中进行无损重建，即使输入特征数量远远超过表示维度[12,22]。然而，在实践中，我们认为叠加是**有损的**，因此组合错误可以从正在组合的激活特征的几何来预测。然后，我们描述如何从语言模型中提取特征，并经验性地测量它们在不同设置之间的角度距离。

### 2.1 背景：有损叠加

直观上，我们可以在 \(d\) 个线性维度中存储 \(d\) 个特征。那么，为什么在当前叠加理论下，对超过 \(d\) 个特征进行无损压缩是可能的？关键假设是 \(k\)-稀疏性：在任何给定输入中，只有 \(k \ll d\) 个特征可以同时激活。这个现实的稀疏性假设允许使用压缩感知[12]的充分性定理，保证编码表示可以求逆，从而精确恢复原始特征。这种稀疏性允许我们从线性数量 \(d\) 的维度中恢复指数数量 \(m\) 的特征。具体来说，如果我们知道线性编码器 \(A \in \mathbb{R}^{d \times m}\)，我们可以从编码表示 \(Az\) 精确恢复任何具有 \(k\)-稀疏支持 \(\textrm{supp}(z) \subset [m]\) 的特定特征向量 \(z \in [-1,1]^m\)。给定 \(Az\)，我们以零恢复误差重建特征向量 \(\hat{z}\)：

\[
\|z - \hat{z}\|_2 = 0.
\tag{1}
\]

关键的是，当特征表示非正交时，这一保证不会退化。即使下一个 LLM 层禁止非线性解码，使用双正交解码器字典[22]仍然可以恢复具有非常相似表示的概念。尽管在温和假设下存在这种理想解码，但在真实的 LLM 推理过程中，它不太可能成立；我们可以假设表示中存在一些噪声。这些保证只存在于无噪声环境中。在压缩感知理论中，当特征编码矩阵包含具有高余弦相似度的编码时，恢复对噪声更敏感[8]。具体来说，鲁棒解码需要一个具有低全局一致性的编码器 \(A\)，定义为所有列之间的最大相似度：

\[
\rho = \max_{\begin{subarray}{c} i,j \in [m] \\ j \neq i \end{subarray}} \left| \cos(a_i, a_j) \right|.
\]

最坏情况下的恢复误差界限并不依赖于理想解码器的低一致性，但在噪声解码时却依赖。鲁棒解码解释了为什么相关特征已知为正交编码，而反相关特征则表现出负干扰[18]。全局一致性提供了最坏情况错误的界限，但我们关注的是特定特征组合的错误。在特定场景中，并非所有干扰都是等同的。我们最关心对该场景**显著**的特征——具体来说是稀疏支持 \(\textrm{supp}(z)\) 以及在稀疏支持上下文中相关的任何特征。无论 LLM 如何识别显著支持 \(\mathcal{S}\)，如果它将解码限制在显著特征上，那么鲁棒恢复所需的维度以高概率由 Adcock 等人[2]的结构化界限控制。实际上，这个界限取决于示例与显著支持的交互，本身由显著支持的**局部累积一致性**界定：

\[
\alpha(\mathcal{S}) = \max_{i \in \mathcal{S}} \sum_{\begin{subarray}{c} j \in \mathcal{S} \\ j \neq i \end{subarray}} \left| \cos(a_i, a_j) \right|.
\tag{2}
\]

相关界限的进一步理论细节，以及鲁棒线性压缩感知的相关界限，在附录 A 中提供。

为什么当显著支持具有高累积一致性时，特征恢复的鲁棒性会降低？直观上，鲁棒恢复受到来自最具破坏性特征的相消性干扰的阻碍：该显著特征与其他对该支持显著的特征具有最小的角度。这一点由局部累积一致性项捕捉，我们将其在下文操作化为**组合干扰 (CI)**。我们将利用这个干扰度量来按 LLM 组合失败的可能性对概念组合进行排序。我们的直觉很简单：当一个 LLM 由于干扰而无法稳健地恢复一组处于叠加状态的特征时，它在处理过程中更可能犯错。

### 2.2 测量组合干扰

上述理论预测，当组合输入中激活或显著的特征具有高累积一致性时，组合失败更可能发生。在没有组合场景示例的情况下，我们如何计算这个值？在真实的 LLM 中，模型学习到的真实概念并非直接可访问。虽然诸如稀疏自编码器 (SAE)[17] 之类的方法被提出来将表示空间解纠缠为离散特征，但它们引入了额外的假设和实现挑战。我们寻求使用模型的残差表示作为组合干扰的简单代理。

![图2](a) 表示空间中的大规模结构。(b) SCAN 示例。

图 2：在控制大规模表示结构后，可以从特征干扰预测组合泛化。(a) 表示按与感兴趣概念无关的全局结构聚类。颜色表示来自相同主题子集的示例（第 9 层）。(b) 对第 3 节组合失败的假设性说明。两个命令共享相同的结构，但在一个概念（run vs. jump）上不同。顶部相关的原子概念接近正交，使得正确组合成为可能。

#### 原子概念与显著特征。

我们区分输入中的原子**概念**和模型表示中的潜在**特征**。令 \(\mathcal{C}\) 表示原子概念集，令 \(C \subseteq \mathcal{C}\) 表示由特定输入 \(x \in \mathcal{X}(C)\) 实例化的一组激活原子概念。这些概念对应于一个显著特征支持 \(\mathcal{S}(C)\)，即对这些概念激活或相关的潜在特征的索引。例如，概念 Spanish 可能不对应于单个方向，而是对应于一组特征方向。

对抗性概念搜索：从特征几何预测组合错误

相似文章

R-APS：通过反思性对抗帕累托搜索实现约束设计的组合推理与上下文元学习

句子编码器中概念表征的原则

Concrete Jungle：利用词汇具体性铺路，革新对比负样本挖掘以提升组合理解

特征组合的结构不稳定性

面向自然语言理解任务的混合对抗防御框架

提交意见反馈