多模态语言模型中事实回忆机制是否从文本迁移到语音？

arXiv cs.CL 2026/05/22 04:00 论文

摘要

本文研究了在文本语言模型中学到的事实回忆机制是否会迁移到多模态语音语言模型中的语音模态。通过对SpiritLM进行因果中介分析，发现这些机制仅部分迁移，凸显了文本与语音处理之间的差异。

arXiv:2605.22170v1 公告类型：新摘要：近年来，出现了几种同时表示语音和书面文本的语音语言模型（SLMs）。随之而来的问题是，当模型在两种模态下运行时，其内部机制有何相似与不同。我们聚焦于这些系统如何编码、存储和检索事实知识，这一问题此前已在纯文本模型中得到研究。为了探究SLMs中事实关联存储和回忆的机制，我们利用因果中介分析（一种先前应用于纯文本模型的技术）。使用融合离散语音标记的多模态模型SpiritLM的初步结果显示，文本到文本和语音到文本的结果之间存在差异，表明用于事实回忆的涌现机制仅部分从文本模态迁移到语音模态。这些结果增进了我们对SLM内部机制如何编码事实关联的理解，同时为提高语音AI系统提供了见解。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:45

# 多模态语言模型中事实回忆机制是否从文本迁移到语音？

来源：https://arxiv.org/html/2605.22170  
Luca Modica1,3,4\*Filip Landin2,3,4\*Mehrdad Farahani3,4\*Livia Qian5 Gabriel Skantze5Richard Johansson3,4  
1Zenseact  
2Unbox AI  
3查尔姆斯理工大学  
4哥德堡大学  
5皇家理工学院  
mehrdad\.farahani@chalmers\.se  

###### 摘要

近年来，多种同时表示语音和书面文本的语音语言模型（SLM）被提出。问题在于，模型内部机制在两种模态下运行时，哪些方面*相似*、哪些方面*不同*。我们聚焦于这些系统如何编码、存储和检索事实知识——这一问题此前已在纯文本模型中得到研究。为了探究 SLM 中事实关联的存储与回忆机制，我们采用因果中介分析（Causal Mediation Analysis），这是一种先前应用于文本模型的技术。

使用整合离散语音令牌的多模态模型SpiritLM的初步结果显示，文本到文本与语音到文本的结果之间存在差异，表明事实回忆的涌现机制仅部分从文本模态迁移到语音模态。这些结果推进了我们对 SLM 中内部机制如何编码事实关联的理解，同时为改进支持语音的 AI 系统提供了见解。

多模态语言模型中事实回忆机制是否从文本迁移到语音？

Luca Modica1,3,4\*Filip Landin2,3,4\*Mehrdad Farahani3,4\*Livia Qian5Gabriel Skantze5Richard Johansson3,4  
1Zenseact  
2Unbox AI  
3查尔姆斯理工大学  
4哥德堡大学  
5皇家理工学院  
mehrdad\.farahani@chalmers\.se  

\*\*脚注:\* 同等贡献。

## 1 引言

大型语言模型（LLM）在多种 NLP 任务中展现出卓越能力，包括回答事实性问题（例如“意大利的首都是”），这依赖于其参数中存储的信息Petroniet al. (2019)。然而，这些系统仍然存在幻觉问题，且容易产生事实错误，这限制了其可信度和可用性Kandpalet al. (2023)：这促使我们需要进一步探究知识回忆和事实记忆背后的机制。使用基于干预方法的研究表明，事实知识可以在基于文本的 LLM 中被*定位*，尤其是在中层前馈网络（MLP）中Gevaet al. (2021)；Merget al. (2022)；Gevaet al. (2023)。这些发现正被用于开发编辑模型参数的方法，从而允许对事实关联进行精确干预，这是迈向更准确、更可控模型的一步Merget al. (2022, 2023)。

直接在音频上训练而不依赖文本监督的语音语言模型——例如使用 GSLM 风格训练的模型Lakhotiaet al. (2021)——在语音理解任务中显示出潜力Linet al. (2025)；Basuet al. (2024)；Peng et al. (2026)；Hassidet al. (2023)；Zhanget al. (2023)。由于它们不利用基于文本的知识，其事实理解能力较为有限。另一方面，基于 LLM 构建的语音模型（如SpiritLMNguyenet al. (2025)）可能保留或发展出对文本模型中编码知识的更深层理解。尚不清楚的是，这种行为（如果存在）是源于对语音数据的单独训练，还是来自从文本学习到的机制。这引发了有趣的研究问题：

- • 事实回忆背后的机制是否与模态无关？
- • 基于语音输入的事实定位是否独立涌现，而不依赖于骨干架构？

在本文中，我们通过使用因果追踪（CT）——一种用于研究神经网络内组件因果效应的基于干预的技术Merget al. (2022)——来探究SpiritLM中事实关联的存储和回忆位置与方式。我们专注于两种特定的输入设置：

1. T→T（文本到文本）：模型接收并生成文本。
2. S→T（语音到文本）：模型接收音频作为输入，但依然生成文本输出。

通过将 CT 扩展到分析多模态设置中的事实回忆，我们表明语音输入会导致较弱但可检测的事实定位痕迹。

## 2 方法论

本节首先描述因果中介分析（CMA）框架以及因果追踪的数学基础，随后介绍SpiritLM模型、数据集准备和实验设计。

### 2.1 预备知识：因果中介分析

CMA 是一个用于研究复杂系统中各个组件对整体效应的相对贡献的框架Pearl (2001)。遵循Viget al. (2020)的做法，它已成为 LLM 分析标准工具箱的一部分；在机械可解释性中，它也被称为*激活修补*Heimersheim and Nanda (2024)。Merget al. (2022)将 CMA 应用于研究 LM 中的事实回忆。他们的方法包括三个步骤：

#### 干净运行。

LM 接收干净提示X=x，产生概率P_x[o]，其中 o 表示预期的解码令牌。此次推理对应的隐藏状态被缓存。

#### 破坏运行。

模型接收破坏后的输入提示X=x^\*，产生新的预测输出概率P_{x^\*}[o]。Merget al. (2022)通过用与所有输入嵌入标准差成比例的高斯噪声混淆主题令牌来实现破坏干预。

#### 破坏并恢复运行。

相同的破坏提示X=x^\*被输入模型，但选定组件C_i的激活值被从干净运行中恢复（修补）。结果记为P_{x^\*, clean C_i}[o]，其中“clean C_i”指的是来自干净推理的组件C_i的值。

这三个运行的结果使我们能够量化干预的中介效应。隐藏状态中介器的相对贡献由间接效应（IE）衡量，定义为破坏并恢复运行与破坏运行之间的差值：

IE = P_{x^\*, clean C_i}[o] - P_{x^\*}[o]。

通过对多个提示取平均，我们可以在模型组件的不同层级上获得平均间接效应（AIE），然后将贡献结果可视化。

### 2.2 研究对象：SpiritLM模型

我们的工作以SpiritLMNguyenet al. (2025)为案例，它是一个可以生成文本和音频语言内容的多模态（语音）语言模型。此外，SpiritLM使用离散语音令牌，并在交错的语音和文本令牌序列上进行训练，以实现更好的跨模态泛化与对齐，使其非常适合本研究。

我们在图1中展示了SpiritLM的高层架构。该模型通过特殊的模态声明令牌（文本用“T”，语音用“S”）处理混合语音和文本输入。音频通过HuBERTHsuet al. (2021)离散化为令牌，文本则使用Llama2分词器。交错的序列中，每个部分都有对应的模态令牌前缀，然后输入到Llama2中。模型根据最近的模态令牌预测下一个令牌：“T”令牌提示文本生成，“S”令牌提示离散语音令牌。推理时，语音令牌通过HiFi-GANKonget al. (2020)解码。

参照标题

图1：SpiritLM架构。

所使用的语音表示允许在因果中介分析实验中，在单模态和跨模态上下文中定位和分析特定的语音令牌。

### 2.3 数据集与数据准备

我们的研究使用Known数据集Merget al. (2022)：它包含 GPT2-XL 模型已知的近 1000 个事实提示，以及注释的主题和对象（预期正确答案）。

从可用的文本数据出发，我们为Known中的每条信息（提示、主题、对象）引入相应的语音模态。语音使用TTS模型MeloTTSZhaoet al. (2023)生成，该模型基于利用对抗学习提升表现力和高质量语音合成的架构Kimet al. (2021)；Konget al. (2023)。我们通过两种互补方法评估所整理语音模态的可靠性：对困难样本（尤其是提示）进行人工检查，以及使用Whisper-small（一个轻量级 ASR 模型）自动转录生成的音频。提示转录结果的词错误率为19%，这证明了尽管转写专有名词存在固有困难，但 TTS 表现良好，数据可靠。

为了进一步确保后续实验的数据集质量，我们根据模型在两种不同输入模态下的表现对原始事实陈述进行过滤，得到两个数据集：Known-t2t和Known-s2t。Known-t2t包含那些模型在文本→文本场景中能够轻松生成完全正确答案或接近变体的数据点。例如，“罗马”是提示“意大利的首都是___”的正确答案，而像“罗马，意大利”或“罗马城”这样的答案被视为部分正确。Known-s2t遵循相同的选择标准，但是在语音→文本设置下。

### 2.4 实验设计

通过两个 CMA 实验（文本领域和语音领域）来研究SpiritLM中的事实关联，以确定网络组件（单个 Transformer 层、MLP 子层和注意力子层）的因果效应。

实验使用2.3节介绍的数据集中的提示进行。与Merget al. (2022)类似，破坏性运行是通过对主题令牌的表示添加噪声来实现的。

#### 实验 1：模态内事实回忆（文本→文本）

在第一个实验中，将文本提示输入模型，并计算三个 CMA 迭代（干净、破坏、破坏并恢复）中预测对应属性的对数概率。如2.1节所述，IE 按令牌在句子中的位置进行聚合：第一个主题令牌、中间主题令牌、最后一个主题令牌、第一个后续令牌、后续令牌和最后一个令牌，然后对所有提示取平均得到 AIE，并以对数 AIE 的形式呈现，便于可读性和比较。

#### 实验 2：跨模态事实回忆（语音→文本）

第二个实验类似，但使用数据集的语音合成版本，提示被转换为音频。每个话语由HuBERT编码并离散化，得到的令牌输入语言模型，CMA 流程与前一实验相同。此处的一个额外挑战是，在破坏性运行中，不再容易定位输入提示中的主题令牌。因此，使用基于连接主义时间分类（CTC）的强制对齐Kürzingeret al. (2020)来找到话语中主题的目标时间范围，从而确定相关语音令牌的范围（详见附录A）。同样的技术允许在语音令牌与对应文本令牌之间建立映射，该映射用于后处理 CMA 结果。语音（HuBERT）令牌的因果痕迹按照对应的文本令牌进行聚合（与文本类似），这便于跨模态因果影响的直接比较与解释。强制对齐的质量通过手动检查与文本令牌对应的语音段落进行验证，确保令牌边界正确对齐，整个提示话语中没有重叠或显著间隙。

单层修补 | 5 层 MLP 修补区间中点 | 5 层注意力修补区间中点
--- | --- | ---
T→T (LLaMA 2.7B) (a) | (b) | (c)
T→T (SpiritLM) (d) | (e) | (f)
S→T (SpiritLM) (g) | (h) | (i)

图 2：跨越 754 个提示的不同模块和模态下的对数尺度 AIE。在每个子图中，x 轴表示层数，y 轴表示关注的令牌位置。

## 3 结果与讨论

我们从两个层面开始实验，以检验先前在纯文本模型中围绕主题令牌表现出定位的事实关联，是否也能在其他模态中被回忆和表达。在我们的案例中，我们关注SpiritLM及其语音模态。为此，我们使用因果中介分析计算所有过滤查询提示下每个层和每个令牌的平均间接效应（AIE）。AIE 衡量在干预下内部组件对最终事实预测的边际贡献。较高的 AIE 值表明哪些层和位置对事实回忆影响更大。

作为基线，我们对SpiritLM中使用的骨干模型进行 CT，使用文本到文本提示。正如Merget al. (2022)先前的研究所预期，我们在早期层（尤其是中层 MLP）中观察到了以主题令牌为中心的强大因果信号（AIE）（见图2）。我们还在上层层的最终令牌位置检测到显著效应，那里通常观察到强因果性。将相同的 CT 分析扩展到 T→T 设置下的SpiritLM，显示几乎相同的行为：一致的主题令牌周围因果信号出现在隐藏状态、MLP 和注意力层中（图2）。

多模态语言模型中事实回忆机制是否从文本迁移到语音？

相似文章

口语对话中的上下文感知多模态声明验证

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力

测试了小模型在对话中能记住一个事实多长时间。记忆失败模式对智能体来说是一个真正的问题，而且这并非我所预料的。

用于事实核查的多模态声明提取

提交意见反馈