自动解释标签的泛化程度：跨语言、文字和改写的一项受控研究

arXiv cs.CL 2026/06/02 04:00 论文

sparse-autoencoders interpretability generalization cross-lingual serbian-digraphia language-models safety

摘要

本文利用塞尔维亚双文制作为受控测试平台，探究稀疏自编码器特征的自动生成标签是否跨语言和文字泛化。研究发现，尽管特征集在不同语言间存在显著重叠，但标签通常未能追踪非英语输入中的同一概念，尤其是在代表性较弱的文字中。

arXiv:2606.00356v1 公告类型：新论文摘要：稀疏自编码器（SAE）特征越来越多地被用于解释语言模型，其中自动生成的自然语言标签成为理解每个特征含义的主要接口。我们探讨这些标签是否具有泛化能力：一个标记为某概念的特征是否真的在不同语言和文字中追踪该概念？利用塞尔维亚双文制（同一语言通过确定性转写在拉丁字母和西里尔字母中书写）作为受控测试平台，我们首先发现，由相同内容在不同语言、文字和表述下激活的SAE特征集具有显著重叠（峰值Jaccard相似度为0.57，而随机基线为0.13），表明存在真正的跨语言语义特征。接着我们检验自动解释标签是否跟上这一现象。通常它们未能跟上：标签描述语义内容的特征在塞尔维亚语中遗漏相同含义的概率比在英语中高出高达$4\times$，并且遗漏塞尔维亚西里尔字母的概率高于塞尔维亚拉丁字母——而这两种文字是彼此确定性的转写关系，这表明失败程度与每种形式在训练中的表示水平相关。这一差距随网络深度增加而扩大，但标签并未给出任何失败迹象。这些结果表明，自动解释标签可能反映的是特征在良好表示的输入上的行为，而非概念本身。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:36

# 自动解释标签的泛化程度：一项跨语言、文字与改写方式的受控研究
来源: https://arxiv.org/html/2606.00356

第一作者单位 / 地址行1 / 地址行2 / 地址行3  
email@domain  

第二作者单位 / 地址行1 / 地址行2 / 地址行3  
email@domain  

###### 摘要  
稀疏自编码器（SAE）特征越来越多地被用于解释语言模型，其中自动生成的自然语言标签成为理解每个特征所代表内容的主要接口。我们探究这些标签是否具有泛化能力：一个被标记为某个概念的特征，是否真的能在不同语言和文字间追踪该概念？利用塞尔维亚语的双文字系统作为一个受控测试平台——同一语言通过确定性音译同时以拉丁字母和西里尔字母书写——我们首先发现，由相同内容在不同语言、文字和措辞下激活的SAE特征集之间存在显著的重叠（峰值Jaccard相似度为0.57，而随机基线为0.13），这表明存在真正的跨语言语义特征。然后，我们测试自动解释标签是否能与之同步。结果往往不能：那些标签描述语义内容的特征，在塞尔维亚语中遗漏相同意义的频率最高可达英语中的4倍，并且遗漏塞尔维亚西里尔文的频率高于塞尔维亚拉丁文——而这两种文字互为确定性音译——这表明失败的程度与每种形式在训练中的表示程度相关。这种差距随着网络深度增加而增大，然而标签本身并未给出任何失败的迹象。这些结果表明，自动解释标签可能反映的是特征在良好表示输入上的行为，而非概念本身。

\[ Extension = \.otf, UprightFont = \*\-regular, BoldFont = \*\-bold, ItalicFont = \*\-italic, BoldItalicFont = \*\-bolditalic, \]  
\[ Extension = \.otf, UprightFont = \*, BoldFont = \*Bold, ItalicFont = \*Italic, BoldItalicFont = \*BoldItalic, \]  
\setTransitionsForCyrillics\cyrillicfont

# 自动解释标签的泛化程度：一项跨语言、文字与改写方式的受控研究
Sripad Karne  
哥伦比亚大学  
[email protected]  

## 1 引言
稀疏自编码器（SAE）已成为检查语言模型内部机制的标准工具，将密集激活分解为更容易解释的稀疏特征（Bricken 等，2023；Cunningham 等，2024；Templeton 等，2024）。由于模型包含的特征远多于任何人都能手动检查的数量，每个特征通常会被自动标记：语言模型读取该特征的最高激活示例，并撰写简短的文字描述（Bills 等，2023；Lin 和 Bloom，2023）。这些标签随后成为实践者依赖的内容——用于理解模型、审计其行为或对其进行操控。但这些标签的泛化程度如何？考虑一个被标记为“欺骗”或“暴力内容”的特征。研究者看到标签，就认为该特征能追踪相应概念并依赖它——或许是为了监控与安全相关的行为。而标签没有说明的是，该特征在不同语言和文字间追踪该概念的能力是否一致。如果一个特征主要在英语中检测欺骗，在俄语中减弱，在塞尔维亚西里尔文中进一步减弱，那么以某种形式触发它的相同内容可能会在另一种形式中悄然通过。标签正确地命名了概念；但其忽略了的是该特征实际追踪该概念的*范围*。

要测试这一点，需要一个能够在保持意义完全不变的同时改变表面形式的设置。塞尔维亚语的双文字系统恰好提供了这样的控制：塞尔维亚语同时使用拉丁字母和西里尔字母书写，通过确定性、无损的音译相关联，因此我们可以在保持语言、措辞和意义不变的情况下改变文字。结合跨语言控制（英语、俄语），我们构建了一个析因范式，能够独立隔离文字、语言、措辞和意义。

首先，我们发现了SAE特征编码抽象意义的证据：由相同内容在不同语言、文字和措辞下激活的特征集存在显著的重叠（峰值Jaccard 0.57，基线0.13）——需再次确认该数字——这种模式在不同模型规模、架构和SAE超参数下均稳健（附录B），从而为跨语言语义特征的存在及其值得标记提供了证据。

其次，我们测试了分配给这些特征的自动解释标签在相同内容以塞尔维亚语呈现时是否仍然成立。结果是不成立。具有内容标签的特征在塞尔维亚语中遗漏相同意义的频率最高可达英语中的4倍——这种差距随着网络深度增加而增大，且标签本身对此毫无提示——并且遗漏塞尔维亚西里尔文的频率高于塞尔维亚拉丁文，尽管两者在音译上是相同的。

我们的贡献如下：
1. 一项受控的跨语言评估，表明自动解释标签可能在较少表示的语言和文字上系统地失败，且失败与估计的训练覆盖范围一致，而这种失败从标签本身是无法察觉的。
2. 一个析因范式，能够独立隔离SAE特征集中的文字、语言、措辞和意义，为跨语言语义特征提供证据。
3. 一个基于 FLORES+ 构建的受控多语言评估套件：包含四种语言-文字变体下的300个句子，配以已验证的释义和匹配的随机伙伴，专为 SAE 特征的析因分析设计，并已发布以支持未来工作。¹¹数据集和代码可在 https://anonymous.4open.science/r/auto-interp-cross-lingual-eval-5D85 获取。

## 2 相关工作
#### 稀疏自编码器与特征解释。
稀疏自编码器（SAEs）将模型激活分解为稀疏、更可解释的特征，为检查超出单个神经元层面的表示提供了一条途径（Bricken 等，2023；Cunningham 等，2024；Gao 等，2024）。诸如 Gemma Scope 2 等开放 SAE 套件已使这一方法在规模上变得实用（McDougall 等，2025），而基于这些套件构建的特征目录现已成为可解释性工作的常见入口点。我们使用 Gemma Scope 2 SAEs 以及通过此类目录提供的标签，将其视为实践者实际会使用的部署工具。

#### 自动解释及其可靠性。
由于模型包含的特征数量远超人工检查范围，特征通常被自动标记：语言模型读取该特征的最高激活示例，并撰写简短的文字描述（Bills 等，2023；Lin 和 Bloom，2023）。这些标签的可靠性是一个尚未解决的关切。先前的研究表明，自动解释可能模糊或不准确，并提出了更严格的评估方法（Huang 等，2023；Liu 等，2026）。然而，这些评估都是单语的：它们询问标签是否与特征在其推导时所用输入上的行为相符，而非当相同内容以另一种语言或文字出现时标签是否仍然成立。这一差距正是我们要测试的。

#### 多语言表示与文字。
已知多语言模型以部分语言无关的方式表示意义：不同语言中等价的句子在中间层会汇聚到共享的语义空间，然后表示在接近输出层时向输出语言特化（Wendler 等，2024；Wuet 等，2025）。在 SAE 特征层面，Verma 等人（2026）研究了文字和语言结构如何影响哪些特征被激活。这些发现使得对特征标签进行跨语言测试变得有意义：如果特征在语言间追踪意义，那么分配给它们的标签也应在语言间成立。我们将测试这一点。

## 3 方法
### 3.1 数据集
#### 源语料库。
我们从 FLORES+ devtest 分割（NLLB Team 等，2024）中抽取了300个句子，这是一个由专业翻译句子构成的多语言基准测试，按来源（Wikinews、Wikibooks、Wikivoyage）分层，每种约100句，以涵盖新闻、教学和旅行语域。FLORES+ 提供了每个句子的专业对齐翻译到塞尔维亚语（西里尔文）和俄语（西里尔文）。

#### 语言与文字变体。
每个句子以四种语言-文字变体呈现：英文拉丁文、塞尔维亚西里尔文、塞尔维亚拉丁文、俄语西里尔文。塞尔维亚拉丁文通过对塞尔维亚西里尔文运用基于 Vuk Karadžić 映射的确定性、无损音译生成，该映射通过 `cyrtranslit` 实现（Labrèche，2025）。因此，两个塞尔维亚变体仅在文字上不同，而内容保持不变——我们的范式正是利用这一性质来隔离文字与语言、意义。

#### 条件。
在每个变体内，每个句子出现于三种条件中。*原始* 是 FLORES+ 的专业翻译，或塞尔维亚拉丁文的音译形式。*释义* 是保持意义不变、改变表面形式的改写，按如下方式生成并验证。*随机伙伴* 是同一语言和文字下无关的 FLORES+ devtest 句子，长度控制在三个单词以内；它与目标共享文字和语言，但不共享语义内容。表1 总结了所有变体和条件。将四种语言-文字变体与三种条件（原始、释义、随机伙伴）交叉，在300个句子中总共得到 300 × 4 × 3 = 3,600 个文本。

| 变体 | 语言 | 文字 |
|------|------|------|
| En-Latin | 英文 | 拉丁文 |
| Sr-Latin | 塞尔维亚文 | 拉丁文 |
| Sr-Cyrillic | 塞尔维亚文 | 西里尔文 |
| Ru-Cyrillic | 俄文 | 西里尔文 |

| 条件 | 描述 |
|------|------|
| 原始 | FLORES+ 参考翻译 |
| 释义 | 保持意义的改写 |
| 随机 | 无关句子，相同变体 |

表 1：四种语言-文字变体与三种条件。

#### 释义生成。
英文释义使用 Claude Opus 4.6 生成，提示要求保持意义同时改变表面形式，且长度与原始 FLORES+ 短语相差不超过三个单词。塞尔维亚语和俄语释义通过使用同一模型翻译英文释义获得；塞尔维亚拉丁文通过音译塞尔维亚西里尔文获得。所有候选结果通过 LaBSE（Feng 等，2022）过滤（余弦相似度 ≥ 0.80）。完整提示见附录 A.1。

#### 母语者验证。
对于英文、塞尔维亚语和俄语，我们分别招募了两位验证者。每位判断200个句子，两人之间有100句重叠，覆盖每种语言300个独特句子。每个句子对收到两个二元判断：释义是否保留了原始*意义*，以及是否读起来是*自然*文本。两者均通过的对子被直接接受；否则验证者提供修正后的释义，将其添加到数据集中并标记为参考（完整说明见附录 A.2）。

#### 分歧解决。
对于每种语言的100个重叠句子，我们以保守方式解决分歧：单方面标记的尊重捕获结果；双方均标记的项使用基于 FLORES+ 索引的内容盲区奇偶平局决断法（在检查修正前固定）（附录 A.3）。

#### 验证结果。
纯净接受率为：英文 96.0%，俄语 90.7%，塞尔维亚语 70.7%；修正幅度较小（中位数 1–3 个单词）。评判者间一致性：英文接近完美，俄语较高（Gwet's AC1 0.87），塞尔维亚语中等（AC1 0.63）。完整统计数据见附录 A.4。

### 3.2 模型与 SAEs
#### 模型。
我们的主要模型是 Gemma-3-27B（Gemma Team，2025）。为了验证我们的发现是否跨模型规模泛化，我们在 Gemma-3-1B 和 Gemma-3-12B 上复制了核心分析；析因分解在所有三种规模下均成立（附录 B.4，图6）。为了检验跨模型家族的泛化性，我们运行了 Llama-3.1-8B 及 Llama Scope SAEs（He 等，2024），后者具有不同的架构、SAE 训练机制和字典宽度；定性结构保持一致（附录 B.5，图7）。

#### 稀疏自编码器。
我们使用 Gemma Scope 2 套件的 SAEs（McDougall 等，2025）。所有 SAE 使用 JumpReLU 激活（Rajamanoharan 等，2024），字典宽度为 16,384 个特征，并选择低 L0 稀疏度。我们分析每个模型的每一层，在每个深度使用对应层的 SAE。为了确认我们的发现并非提取设置的假象，我们在 Gemma-3-27B 上变化字典宽度（附录 B.2）、L0 稀疏度（附录 B.1）和池化策略（附录 B.3），发现分解在所有三种情况下均稳健。

### 3.3 特征提取与相似度
#### 活跃特征集。
对于给定文本 \( s \)，我们在每一层 \( \ell \) 的最后一个 token 位置提取残差流的隐藏状态，用该层的 SAE 进行编码，并将活跃特征集定义为 \( F_{\ell}(s) = \{ i : a_i^{(\ell)}(s) > 0 \} \)。

#### 相似度。
我们使用 Jaccard 指数衡量两个文本活跃特征集之间的重叠：\( J_{\ell}(s, s') = \frac{|F_{\ell}(s) \cap F_{\ell}(s')|}{|F_{\ell}(s) \cup F_{\ell}(s')|} \)，独立计算每一层。

#### 析因比较。
我们通过一次比较一对保持其余属性固定的文本，分别隔离文字、语言、措辞和意义（表2）：
- **文字**：Sr-Cyrillic 原始 vs. Sr-Latin 原始（语言和内容相同，仅文字不同）。
- **语言**：Sr-Cyrillic 原始 vs. Ru-Cyrillic 原始（文字和内容相同，语言不同）。
- **措辞**：英文原始 vs. 英文释义（语言和文字相同，表面形式不同）。
- **意义**：英文原始 vs. 俄语释义（文字、语言和措辞均不同；仅意义共享）。

每种对比均与一个仅共享表面属性的随机伙伴基线进行比较，但措辞除外，其使用自身上限 1.0。

表 2：隔离文本每个属性的受控对比。✓ = 两个文本之间*共享*该属性，✗ = 属性*不同*。每个测试在其*主要*对比中隔离一种属性。

（接下来是表格内容，由于 markdown 中未完全展现，但根据上下文，应该是一个表格。我们按照原文格式保留。）

自动解释标签的泛化程度：跨语言、文字和改写的一项受控研究

相似文章

语言模型中跨语言泛化的体外研究

理解边缘：稀疏自编码器追踪Transformer泛化的界限

量化如何改变可解释特征：语言模型的稀疏自编码器分析

扩展单义性：从Claude 3 Sonnet中提取可解释特征

LoRA适配器的特征几何：微调语言模型中表征差异的稀疏自编码器分析

提交意见反馈