跨模型激活迁移在Pythia多跳设置中的负面结果

arXiv cs.AI 2026/06/03 04:00 论文

cross-model activation-transfer pythia multi-hop-reasoning negative-result language-models interpretability

摘要

本文研究语言模型之间直接激活迁移是否能改善推理能力，使用从Pythia-160M到Pythia-410M的线性翻译层。尽管实现了高表示对齐，但迁移的激活并未改善多跳问答，产生了负面结果。

arXiv:2606.03280v1 公告类型: 新摘要: 近期研究表明，语言模型可以通过训练过程中生成数据中的隐藏信号传递行为特征。我们探究是否也存在一种更直接、更严格的通道：一个语言模型能否在推理时通过翻译和注入隐藏激活，而非传递自然语言文本，向另一个模型传递有用的中间推理状态？我们在受控的Pythia-160M到Pythia-410M多跳推理设置中测试了这一问题。线性翻译层学习了一个发送方与接收方隐藏状态之间的强归一化空间映射，各种子下的归一化余弦相似度接近0.97。然而，当翻译后的激活在推理时注入接收方后，并未改善下游回答。低强度加法注入仍接近无注入基线，置信区间跨越零。替换式注入则始终具有破坏性，将翻译后的向量重新缩放至接收方隐藏状态范数也无法挽救性能。因此，结果是一个有范围限定的负面结论：在此设置下，离线表示对齐不足以在接收方内部实现有效的因果通信。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:43

# Pythia多跳设置中跨模型激活迁移的负面结果
来源: https://arxiv.org/html/2606.03280
###### 摘要

近期研究表明，语言模型可以通过训练过程中生成数据中的隐藏信号传递行为特征。我们想探究一个更直接、更严格的通道是否同样可行：一个语言模型能否在推理时通过翻译和注入隐藏激活值，而非传递自然语言文本，将有用的中间推理状态传递给另一个模型？我们在受控的Pythia-160M到Pythia-410M多跳推理设置中测试了这一问题。一个线性翻译层学习了发送方和接收方隐藏状态之间的强归一化空间映射，不同种子下的归一化余弦相似度接近0.97。然而，当将翻译后的激活值在推理时注入接收方时，并未改善下游回答质量。低强度加法注入接近无注入基线，置信区间跨越零。替换式注入始终具有破坏性，将翻译后的向量缩放到接收方隐藏状态范数也未能挽救性能。因此，这是一个有范围的负面结果：在此设置中，离线表征对齐不足以实现接收方内部有用的因果通信。

## 1 引言

隐藏信息如何在不同的语言模型之间流动？哪些通道真正承载了这些信息？近期研究展示了一个令人惊讶的通道：一个模型可以通过生成训练数据中的隐藏信号，将行为特征（例如偏好或失调）传递给另一个模型，即使对这些特征的显式引用已被过滤掉[5 (https://arxiv.org/html/2606.03280#bib.bib5)]。这种传递是数据中介的，在训练时通过微调或蒸馏发生，作用于模型级别的特征，并且主要在发送方和接收方共享相同或行为匹配的基础模型时观察到。本报告在同一个广泛问题框架下测试了一个更直接、更严格的通道。我们不通过生成数据和训练步骤来路由信号，而是在推理时将发送方的隐藏激活值翻译并注入接收方，探究单个实例级别的推理状态是否可以在不调整接收方的情况下进行传递。

激活层面的通信很有吸引力，因为它有望绕过文本瓶颈。在当前的多智能体大型语言模型系统中，模型之间的信息流完全通过自然语言token进行，这迫使发送方和接收方在一端将内部状态编码为文本，在另一端将文本解码回内部表征。如果发送方模型已经构建了有用的内部表征，接收方原则上可能直接受益于该表征，而不是阅读自然语言的中继信息。这项激活迁移研究在一个刻意狭窄的设置中测试了这一想法：Pythia-160M通过一个学习的线性翻译层向Pythia-410M发送隐藏状态，接收方在多跳问答中使用翻译后的状态。

结果是负面的。翻译层并非微不足道的差；它很好地拟合了归一化的接收方激活空间。失败出现在翻译后的状态在接收方内部被因果使用时。这种区别是本报告的核心贡献。一个向量可以在离线目标下对齐，同时仍然无法替代接收方自身的隐藏状态轨迹。

本报告提出三个主张。第一，所测试的激活迁移机制并未优于无注入或自然语言中继基线，尽管翻译层在不同种子下达到了归一化R²≈0.88和归一化余弦相似度≈0.97；高离线对齐与零下游改进之间的对比，清晰地区分了表征对齐与接收方侧因果可用性。第二，替换式迁移具有实际危害，其失败可分解为两个可量化的因素：翻译后向量与接收方原生隐藏状态之间大约两个数量级的L2范数失配，以及翻译状态中残留的方向或分布误差，即使在通过缩放校正缩小L2范数差距后，这种误差仍然具有破坏性。第三，该实验为未来工作缩小了设计问题：有用的模型间激活通信很可能需要一个优化接收方侧因果使用的训练目标，而不仅仅是发送方到接收方的表征拟合。

我们使用*激活迁移*（activation transfer）一词指代在推理时将从另一个模型派生的隐藏状态插入到当前模型中。*发送方*（sender）是Pythia-160M，*接收方*（receiver）是Pythia-410M，*翻译层*（translation layer）是一个学习的映射两者隐藏维度的线性映射。*自然语言中继*（natural-language relay）基线的做法是让发送方生成文本并将该文本提供给接收方。*替换式*（Replacement）注入用翻译后的发送方激活值替换接收方在注入层的隐藏状态，而*加法式*（additive）注入则将一小段翻译后的向量添加到接收方的隐藏状态中。这一声明的范围有意限定于一个模型家族、一组发送方-接收方对、一个任务家族、一个固定的注入深度以及一种线性翻译机制；它不应被解读为关于激活通信、激活引导、模型拼接或表征工程的普遍不可能性主张。

## 2 相关工作

本实验处于表征对齐、跨模型迁移和因果干预的交汇点。

模型拼接（Model stitching）通过一个学习到的映射将网络的一部分连接到另一部分，并询问这两个半部分能否组合成一个工作的系统[10 (https://arxiv.org/html/2606.03280#bib.bib10),1 (https://arxiv.org/html/2606.03280#bib.bib1),8 (https://arxiv.org/html/2606.03280#bib.bib8)]。大多数早期的拼接工作针对视觉模型。近期工作开始将这一框架扩展到语言模型：Chen等人[4 (https://arxiv.org/html/2606.03280#bib.bib4)]使用仿射映射来跨不同规模的语言模型迁移稀疏自编码器特征，并报告小型和大型模型学习到了相当兼容的特征空间。这条工作线仍然围绕离线特征可迁移性展开。本报告提出的问题更为严格：翻译后的激活值能否在推理时作为接收方内部有用的中间计算来使用？

表征相似性工作，包括CKA[9 (https://arxiv.org/html/2606.03280#bib.bib9)]，已经确立了独立训练的网络通常能学习到统计上兼容的内部空间。这些方法是诊断性的。它们验证了结构上的兼容性，但并不测试一个模型的隐藏状态能否作为另一个模型的因果可用中间计算。这里的负面结果与高CKA式的相似性一致，却与因果替代不相容。

激活引导和表征工程表明，激活空间中的方向可以因果影响生成[15 (https://arxiv.org/html/2606.03280#bib.bib15),19 (https://arxiv.org/html/2606.03280#bib.bib19)]。这些干预在单一模型内操作：引导向量来自模型自身的激活分布，扰动通常是一个小型的加法推动。通过翻译层进行跨模型插入则严格更困难，因为源分布不同，而且替换式注入是比加法引导强得多的干预。

单一模型内部的因果干预工作表明，中间层激活在Transformer计算中扮演着强烈的因果角色：激活修补用于定位电路和信息流[16 (https://arxiv.org/html/2606.03280#bib.bib16),17 (https://arxiv.org/html/2606.03280#bib.bib17)]；归纳头分析将上下文学习追溯到特定的注意力组件[13 (https://arxiv.org/html/2606.03280#bib.bib13)]；直接知识编辑通过有针对性的参数更新修改事实关联[11 (https://arxiv.org/html/2606.03280#bib.bib11),12 (https://arxiv.org/html/2606.03280#bib.bib12)]。随后的编辑工作收紧了非破坏性干预所需的精度：Fang等人[7 (https://arxiv.org/html/2606.03280#bib.bib7)]将参数更新投影到保留知识的零空间上，以限制对无关能力的干扰；Tian等人[14 (https://arxiv.org/html/2606.03280#bib.bib14)]、Zhang等人[18 (https://arxiv.org/html/2606.03280#bib.bib18)]将编辑扩展到选择性遗忘和神经符号设置。这一系列工作中反复出现的教训是，即使是同一模型内的替代激活也必须接近其替换的状态；这里产生的跨模型翻译状态，由于构造原因，要远得多。

透镜和嵌入空间分析[2 (https://arxiv.org/html/2606.03280#bib.bib2),6 (https://arxiv.org/html/2606.03280#bib.bib6)]支持一个相关的观察：内部激活可以解码为可解释的输出空间信息。然而，可解码性弱于因果可替代性，而后者正是本测试的属性。

另一条工作线在多智能体强化学习中探索了可微的潜在通信通道，其中智能体被联合训练，以便一个产生信号而另一个消费这些信号。此类方法依赖于共享优化和共同演进的协议。相比之下，当前的多智能体大型语言模型系统完全通过自然语言token进行通信。本设置介于两者之间且更为严格：两个独立训练的语言模型，无联合训练，以及一个离线训练的单一线性桥接。

一条互补的工作线表明，隐藏信息甚至可以完全在没有任何显式通道的情况下在模型之间移动。Cloud等人[5 (https://arxiv.org/html/2606.03280#bib.bib5)]报告了潜意识学习（subliminal learning）：一个带有某种特征的教师模型在与该特征无关的提示上生成数据（数字序列、代码或思维链痕迹），而一个在过滤后的数据上微调的学生模型习得了该特征，即使引用该特征的痕迹已被严格移除。这确立了跨模型特征传递的可能性，但通过一个与本测试不同的通道，沿着三个轴：他们的通道是数据中介的，而我们是激活中介的；它在训练时通过微调操作，而我们在推理时操作且不训练接收方；它传递一个模型级别的行为特征，而我们试图传递一个单一实例级别的推理状态。他们的效果似乎主要出现在教师和学生共享相同或行为匹配的基础模型时，这表明成功的隐藏传递依赖于接收方的兼容性和适应，而不仅仅是隐藏信号的存在。

总之，先前的工作要么表明不同模型的内部表征在结构上相似，要么表明单一模型内部的激活可以因果操控。两者的结合——即高跨模型离线表征相似性能否在推理时注入下转化为接收方侧的因果可用性——正是本报告直接测试的内容。与数据中介、训练时通道的潜意识学习相比，本负面结果最好被解读为沿着通道维度的一个反例，而不是反对一般隐藏模型间传递的证据。该结果与上述工作线相容，但施加了更严格的标准。一个表征仅仅可解码或可预测是不够的。对于模型间激活通信，接收方必须能够将插入的状态作为其自身计算的一部分来使用。

## 3 方法

图1 (https://arxiv.org/html/2606.03280#S3.F1)总结了实验路径。在提取和注入激活值时，发送方和接收方都处理任务提示。一个单独的自然语言中继基线让发送方传递文本而非隐藏状态。注入条件从无注入到低强度加法扰动再到完全替换，以便在后端分析中分离规模失配与方向或分布误差。

参见图注 图1：激活迁移方法概览。主要的激活迁移路径通过线性翻译器映射发送方隐藏状态，并将其注入接收方的固定层。中继基线和对照使用相同的干净评估集，但测试不同的通信或诊断通道。

### 3.1 任务和模型

主要方向是Pythia-160M到Pythia-410M[3 (https://arxiv.org/html/2606.03280#bib.bib3)]。两个模型都使用Pythia家族的GPT-NeoX分词器。注入深度固定为相对深度0.67，对应发送层`gpt_neox.layers.8`和接收层`gpt_neox.layers.16`。该层在最终干净重跑之前就已固定，因此报告的结果并非事后最佳层搜索。

选择Pythia是为了消除与激活迁移问题无关的混淆因素。发送方和接收方共享GPT-NeoX架构和相同的分词器，因此相同输入会产生相同的token序列，序列级注入得以良好定义；发送方和接收方隐藏维度不同，因此存在一个非平凡的跨模型翻译问题。

任务是多跳推理。每个示例包含一个上下文、一个问题和一个简短的标准答案。最终干净评估集有396行。其固定的SHA-256哈希值为：

> 504e077cf17433e22967c86e98d32153 2d4e803dbe24d96af14c7e8ecdd0dcbb

该哈希值记录在每个最终结果JSON中，并由验证脚本检查。

### 3.2 激活翻译

翻译层是一个从发送方隐藏维度到接收方隐藏维度的线性映射。它针对L2归一化的接收方激活值进行训练。在主向前方向上，修正后的M6翻译运行显示出很强的归一化空间对齐，不同种子下的平均归一化R²=0.882773，平均归一化余弦相似度为0.973526。

### 3.3 注入协议

对于激活迁移和无注入条件，接收方使用包含源上下文和问题的完整任务提示。当隐藏状态被提取时，发送方接收相同的提示。这使得序列对齐成为一个严格的协议要求：替换式注入仅在发送方和接收方提示token序列具有匹配的长度和token ID时有效。运行程序会为每个样本记录这两个检查。

对于自然语言中继，发送方首先从源上下文生成中继文本。然后，接收方根据中继文本加上问题来回答。该基线在形式上与激活迁移的输入格式并不相同，但它是相关的常规通信基线：一个模型可以通过文本向另一个模型传递信息。

接收方解码采用贪婪方式。它使用64个新token，重复惩罚为1.3，并设置无重复3-gram约束。自然语言发送方中继使用128个新token。这些值会序列化到结果文件中，并在验证期间进行检查。

最终干净重跑包括以下条件：无注入、自然语言中继、加法注入、未校正替换、尺度校正替换、历史最佳alpha变体（α=0.30）、B到B自身注入、同范数随机控制、

跨模型激活迁移在Pythia多跳设置中的负面结果

相似文章

语言模型中跨语言泛化的体外研究

使用Layer Swap重新思考多语言推理差距

构建更好的Activation Oracles

赋予角色的大型语言模型表现出类似人类的动机推理

CrossHallu：大语言模型内部幻觉信号能否跨语言和领域泛化？

提交意见反馈