构建更好的Activation Oracles

arXiv cs.LG 2026/06/03 04:00 论文
摘要
本文介绍了对Activation Oracles (AOs)的改进，用于解释残差流激活，包括新的对话数据集、多层注入和基于策略的训练。作者还发布了AObench，这是首个用于评估AO质量的全面评估套件。
arXiv:2606.02609v1 公告类型：新摘要：Activation Oracles (AOs) 是解释残差流激活的有前景的方法。然而，当前的AOs面临重要问题，如幻觉和模糊性。此外，文本反转混淆因素使其难以评估。为此，我们从四个方面改进了Activation Oracle (AO) 的训练机制：基于策略的推演训练、改进对话数据集、输入更多层以及对注入公式的改进。能力提升微乎其微，但生活质量改善相当显著。此外，我们开源了首个全面的AO质量评估套件，称为AObench。总体而言，我们希望我们的工作能为改进AOs及其他模型在可扩展、端到端可解释性范式方面奠定基础。
查看原文
查看缓存全文
缓存时间: 2026/06/03 09:39
# 构建更好的激活预言机
来源：https://arxiv.org/html/2606.02609
Jan Bauer MATS Gatsby Unit, UCL &Celeste De Schamphelaere¹¹footnotemark:1 MATS 根特大学 &Adam Karvonen 独立研究员 &Niclas Luick MATS, 汉堡大学 &Neel Nanda

###### 摘要

*激活预言机 (Activation Oracles, AOs)* 是解释残差流激活状态的有前景方法。然而，当前的AO存在重要问题，例如幻觉和模糊性。此外，文本反转混淆因素使其难以评估。为此，我们通过四种方式改进了激活预言机（AO）的训练方案：使用策略内滚动数据训练、改进对话数据集、输入更多层以及改进注入公式。能力提升虽然有限，但使用体验的改善相当显著。此外，我们开源了首个全面的AO质量评估套件，称为AObench。总体而言，我们希望我们的工作能为改进AO以及可扩展、端到端可解释性范式中的其他模型奠定基础。

参见图注Figure 1:激活预言机概览。预言机接收残差流激活和一个自然语言问题，然后生成关于这些激活所代表模型状态的答案。

## 1 引言

激活预言机（以下简称AO）(Karvonen等人, 2025 (https://arxiv.org/html/2606.02609#bib.bib1)) 是经过微调的LLM，能够接收原始LLM的激活作为输入，并回答关于这些激活的自然语言问题。

然而，当前的AO面临几个使其难以使用的问题，例如幻觉、模糊性以及缺乏可验证的忠实性。(Jakkli等人, 2026 (https://arxiv.org/html/2606.02609#bib.bib52)) 此外，文本反转混淆因素（模型可以通过仅从激活中重建周围文本并仅根据重建文本回答来匹配真实预言机的表面性能）使其难以评估。

标准的AO训练方案包括三个部分：LatentQA对话数据集(Pan等人, 2024 (https://arxiv.org/html/2606.02609#bib.bib46))、一套二分类任务，以及在FineWeb上训练的自监督过去/未来透视目标，其中AO预测激活序列之前或之后的token。我们指出LatentQA作为数据集的问题，以及FineWeb过去/未来透视任务作为训练目标的问题。激活通过范数匹配的注入公式，在第二个Transformer层之后馈入(Karvonen等人, 2025 (https://arxiv.org/html/2606.02609#bib.bib1))。

我们提出通过构建更好的对话数据集、从多个层和多个token位置馈入激活、在策略内数据上训练以及增加激活注入的幅度，来部分缓解这些问题。

我们发现这些变化（特别是新的对话数据集）产生了一致的改进：在定量评估和定性测试中，得到的AO在整体评估中得分更高，更好地遵循指令，产生更少的幻觉，并且比原始AO检查点明显更*不模糊*。为了支持该方向的进一步工作，我们发布了AObench，这是首个全面的AO质量评估套件，旨在衡量一个理想的AO应该擅长什么，同时试图保持对文本反转混淆因素的鲁棒性，并针对其主要问题。¹¹¹代码：https://github.com/japhba/activation_oracles。模型和数据集：https://huggingface.co/collections/ceselder/building-better-activation-oracles

相反，我们发现对Ivanova等人(2026 (https://arxiv.org/html/2606.02609#bib.bib54))中的任务进行狭窄的后训练始终无法超越简单的线性探针性能。

我们将AO视为新兴可扩展、端到端可解释性范式的一部分(Steinhardt, 2025 (https://arxiv.org/html/2606.02609#bib.bib39); Pan等人, 2024 (https://arxiv.org/html/2606.02609#bib.bib46); Karvonen等人, 2025 (https://arxiv.org/html/2606.02609#bib.bib1); Choi等人, 2025 (https://arxiv.org/html/2606.02609#bib.bib41); Huang等人, 2025 (https://arxiv.org/html/2606.02609#bib.bib40); Li等人, 2026 (https://arxiv.org/html/2606.02609#bib.bib45); Fraser-Taliente等人, 2026 (https://arxiv.org/html/2606.02609#bib.bib51))：训练模型使用自监督目标将模型内部状态映射到自然语言解释。我们相信，AO的最大收益很可能来自无监督训练任务本身的改进；我们的贡献朝这个方向迈出了一步，但我们预计如果能够找到一个可扩展的、能提升能力的任务，还会有很大的空间。

## 2 当前激活预言机的问题

Jakkli等人(2026 (https://arxiv.org/html/2606.02609#bib.bib52))展示了AO难以使用的场景。我们专注于解决其中两个问题：**幻觉**，即AO输出错误信息；以及**模糊性**，即AO输出是通用的（因此无法证伪）且不回答用户的问题。

他们还强调了**文本反转**的问题：模型可以通过推断周围文本并根据该重建来回答，就像任何黑盒预言机一样；这是评估AO时的一个主要挫折点。

## 3 改进激活预言机训练

### 3.1 更好的对话数据集

为了能够让激活预言机回答自然语言问题，需要一个由关于激活的问题和答案组成的数据集。为此，原始论文使用了*LatentQA*。(Pan等人, 2024 (https://arxiv.org/html/2606.02609#bib.bib46))

然而，我们发现这个数据集质量低下，很可能鼓励模糊性。我们归纳出三个问题：

- • 模型会得到一个复杂的提示，然后被问及一个关于这个提示的具体问题。我们认为LatentQA提出的问题的答案往往不容易从激活中检索，这对AO来说是一个困难的任务，除了文本反转之外没有什么激励，甚至可能直接鼓励在相关信息不存在时产生幻觉/猜测。
- • 这些问题不是关于策略内数据，而是关于用户提示的具体细节：这不针对模型的内部推理。
- • 它是由o1生成的，这是一个现已过时的模型。

我们构建了一个新的对话数据集，试图解决所有这些担忧。因为我们不希望学到的问题可以轻易地从相邻token（文本反转）中回答，我们按如下方式构建QA对：一个单独的LLM（Sonnet 4.6）被给予目标模型的思维链（CoT），并被指示将思维链分成前缀和后缀，并编写一个关于后缀的问题。它被指示以一种方式编写问题，使得该问题难以仅从前缀的文本中回答（即避免文本反转），但有可能从前缀的激活中回答（可解性）。²²²您可以在此处探索我们的数据集：https://huggingface.co/datasets/ceselder/cot-oracle-convqa-chunked-sonnet

参见图注Figure 2:我们的对话数据集是如何构建的。语言模型被要求将一个文本在索引ii处分割，然后构建一个关于索引ii处激活的解释。I被指示选择使得答案可能无法从先前文本中回答。参见图注Figure 3:对话数据集替换，孤立效果。仅将LatentQA(Pan等人, 2024 (https://arxiv.org/html/2606.02609#bib.bib46))替换为我们的对话数据集（保持过去/未来透视语料库和层选择不变）将调整机会后的AObench分数从\+0.244\+0.244提高到\+0.310\+0.310（n=3n=3种子）。这是我们方案中最大的一步。我们在图̃3 (https://arxiv.org/html/2606.02609#S3.F3)中通过仅替换Adam方案中的LatentQA（保持其他一切不变）来消融该任务的效果，并注意到在我们的AObench评估中整体显著提升。我们发现回答更具体，得到的模型更不模糊，并且更好地响应指令。

### 3.2 层选择/向AO馈入多个层

Adam最初随机选择从模型总深度的25%、50%或75%的层馈入激活。由于大多数特征存在于55-80%层范围内，我们怀疑层扫描可能很重要。确实，我们发现AO性能在层22（62%）达到峰值。馈入从层21-25开始的5个连续层会导致进一步提升。有趣的是，最大的提升出现在模型差异分析任务上。我们想指出，训练多层激活预言机会由于更长的上下文而导致训练时间增加，并且大多数收益可以通过简单地选择深度为65%的层来实现（尽管这可能因模型和具体应用而异）。

参见图注Figure 4:层扫描。层22比层18性能更好（在AOBench上提高 \+0.025），5个连续层甚至更好（在AOBench上提高 \+0.05）
### 3.3 在策略内数据上训练

为了训练激活预言机，我们需要可扩展的无监督训练任务。实现这一点的常见方法是从激活中预测过去和/或未来的token，称为过去或未来透视。这需要一些数据来获取激活，然后从中预测token。

参见图注Figure 5:策略内数据。仅将过去/未来透视语料库从FineWeb替换为策略内思维链滚动输出，将调整机会后的AObench分数从\+0.244\+0.244提高到\+0.274\+0.274（n=3n=3种子），比对话替换的效果小。Adam的原始论文仅使用了预训练数据(Penedo等人, 2024 (https://arxiv.org/html/2606.02609#bib.bib43))。然而，这有一个问题：要预测预训练数据中的未来token，你不一定需要知道模型在想什么，只需要知道之前的文本是什么。

我们认为我们使用的策略内数据（即，来自我们试图解释的模型的生成）是更好的训练数据，因为我们假设它是一个更可解决的任务，因为它针对模型在其激活中实际表示的内容。此外，我们在实践中将在策略内环境中使用AO，例如用于研究代理轨迹。虽然上述解释是合理的，但我们只在评估中注意到微小的提升。

我们将fineweb替换为策略内语料库（在图̃6 (https://arxiv.org/html/2606.02609#S3.F6)中），这一变化产生了微小但可测量的AObench改进（约\+0.03\+0.03）。虽然上述解释是合理的，但效果的大小并不显著。

### 3.4 引导强度

自然语言自动编码器（NLA）(Fraser-Taliente等人, 2026 (https://arxiv.org/html/2606.02609#bib.bib51))通过完全替换token嵌入并使用固定标量来注入其激活。我们遵循Karvonen等人(2025 (https://arxiv.org/html/2606.02609#bib.bib1))，在第二个Transformer层之后使用加性、范数匹配的注入。

我们没有对此进行正式的消融研究，但在Qwen3-8B上，每个使用NLA样式的注入的运行都比Adam的公式表现差得多。

Fraser-Taliente等人(2026 (https://arxiv.org/html/2606.02609#bib.bib51))扫描了其注入强度，并声称这是一个非常敏感的超参数。我们从Adam的公式开始做了同样的事情，发现增加注入强度会略微提高性能。这个差异可能看起来很小，确实如此，但在幻觉方面差异是显著的（从79%到85%），这尤其重要，因此我们建议在这里仔细选择您的超参数值。

参见图注Figure 6:我们消融了引导强度，并发现它略微提高了性能。我们的假设是，为什么在第二层注入比替换嵌入更好，是因为第一残差流层与之前层的余弦相似度非常小，这是第一层独有的属性。在第一层之后，层与层之间的余弦相似度保持相当相似。因此，在残差流处于“正确基”中时，在第二层之后注入会工作得更好，这是很合理的（Karvonen等人(2025 (https://arxiv.org/html/2606.02609#bib.bib1))得出了类似结论）。更强注入强度可能更好的原因是，语言模型具有很强的先验，倾向于大致平等地加权token，并且很少有一个token对整个解释起关键作用。语言模型的先验可能难以克服，因此手动为激活强制执行更强的范数可以帮助克服这一点。

## 4 结果

我们构建了AObench，旨在衡量一个理想的激活预言机应该擅长什么。该基准仍在开发中，但我们建议将其作为评估新激活预言机的起点。它针对Jakkli等人(2026 (https://arxiv.org/html/2606.02609#bib.bib52))确定的主要挫折点，并重用了Karvonen等人(2025 (https://arxiv.org/html/2606.02609#bib.bib1))中的几个模型生物；完整的逐任务结果和提示在§̃A.6 (https://arxiv.org/html/2606.02609#A1.SS6)中报告。具体来说，*模糊性*评估预言机对模型推理的描述是否具体且针对问题，而*幻觉*评估预言机是否发明了关于模型推理的具体但无支持的细节。

我们进行了受控消融研究，从Karvonen等人(2025 (https://arxiv.org/html/2606.02609#bib.bib1))开始，应用我们的每个更改。所有运行都严格训练了5000万个token，使用匹配的学习率，并在计算允许的情况下使用多个种子。³³³相对于Karvonen等人(2025 (https://arxiv.org/html/2606.02609#bib.bib1))，我们的检查点稍欠训练（5000万 vs 6500万token）；我们期望进一步训练能提高绝对性能，但方案间的相对顺序在我们的token预算下已经稳定（参见§A.2 (https://arxiv.org/html/2606.02609#A1.SS2)）。完整方案将调整机会后的AObench分数从\+0.244\+0.244（Adam基线）提高到\+0.435\+0.435，其中仅对话数据集替换就占了最大单一跳跃（\+0.244→\+0.310\+0.244\\to\+0.310）。

参见图注Figure 7:AObench消融阶梯图。每个柱状条在前一个方案基础上添加我们的一项干预措施。对话数据集替换（蓝色）驱动了最大的单步改进；多层提取和策略内过去/未来透视数据各自贡献了额外的提升，而2×\\times注入强度调整产生了最终的微小增益。所有运行训练了5000万个token；误差线显示种子均值的95%置信区间。
#### 幻觉和模糊性。

图̃8 (https://arxiv.org/html/2606.02609#S4.F8)沿着Jakkli等人(2026 (https://arxiv.org/html/2606.02609#bib.bib52))最强调的两个维度分解了消融结果。需要注意的是，幻觉评分最初增加了，我们将其归因于我们的对话数据训练模型做出更具体的声明，这使得幻觉更容易被计数。在考虑这一点后，增加是单调的（从68.8%到84.6%）。与原始AO相比，完整方案中的模糊性显著改善（调整机会后从0.076→0.2050.076\\to 0.205），其中对话数据集和多层干预贡献了大部分增益。

参见图注
参见图注

Figure 8:消融阶梯中的幻觉和模糊性。每个柱状条在前一个方案基础上添加一项干预措施；误差线是种子均值的95%置信区间。
#### 注意事项。

策略内
构建更好的Activation Oracles

相似文章

AGORA: 基于档案的智能体工作场所文档推理基准

提示-激活对偶性：通过注意力层干预改进激活引导

激活图谱简介

测量开放大语言模型中的最大激活值

IAPO：面向小规模多模态智能体工具使用的输入归因感知策略优化

提交意见反馈