SALSA：通过学习的引导激活向量实现语音感知LLM的自适应

arXiv cs.CL 2026/06/02 04:00 论文

摘要

SALSA提出了一种轻量级自适应方法，用于语音感知的大语言模型，通过监督目标学习逐层引导向量，在域外语音基准上取得了显著改进（相对提升高达46.8%），并表明引导编码器层（尤其是较深层）比修改LLM主干更有效。

arXiv:2606.00460v1 公告类型：新摘要：语音感知的大语言模型通常在域外场景下泛化能力较差。我们提出SALSA（Speech-Aware LLM Adaptation via Learned Steering Activations，通过学习的引导激活实现语音感知LLM的自适应），一种轻量级自适应方法，通过监督目标直接优化逐层引导向量，不同于依赖对比激活差异的常见引导方法。在儿童语音、多语种语音以及普通话-英语代码切换基准测试中，SALSA相比零样本推理和语音上下文学习基线显著提升了性能，相较于零样本实现了高达46.8%的相对改进。进一步分析表明，引导编码器（尤其是较深层）比引导LLM主干更有效。这些发现表明，引导通过调整高层声学和音素表征以更好地与预训练语言模型表征空间对齐，而非修改解码器本身，从而提升下游ASR性能。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:37

# SALSA: 通过学习的引导激活向量实现语音感知大语言模型自适应
来源：https://arxiv.org/html/2606.00460
Yekaterina Yegorova¹, Argyrios Gerogiannis¹, Haolong Zheng¹, Julia Hockenmaier¹, Chang D. Yoo², Mark A. Hasegawa-Johnson¹

¹伊利诺伊大学厄巴纳-香槟分校，²韩国科学技术院
{yay2, ag91, haolong2, juliahmr, jhasegaw}@illinois.edu [email protected]

###### 摘要

语音感知大语言模型通常对域外场景泛化能力较差。我们提出SALSA（通过学习的引导激活向量实现语音感知大语言模型自适应），一种学习逐层引导向量的轻量级自适应方法。与常用的依赖对比激活差异的引导方法不同，SALSA直接使用监督目标优化引导向量。在儿童语音、多语言语音以及中英文代码转换基准上，SALSA相较于零样本推理和语音上下文学习基线显著提升性能，相对零样本提升高达46.8%。进一步分析表明，引导编码器（尤其是较后层）比引导语言模型主干更有效。这些发现表明，引导通过调整更高层次的声学和语音表示以更好地与预训练语言模型表示空间对齐，从而提升下游ASR性能，而不是通过修改解码器本身。

SALSA: 通过学习的引导激活向量实现语音感知大语言模型自适应

Yekaterina Yegorova¹, Argyrios Gerogiannis¹, Haolong Zheng¹, Julia Hockenmaier¹, Chang D. Yoo², Mark A. Hasegawa-Johnson¹
¹伊利诺伊大学厄巴纳-香槟分校，²韩国科学技术院
{yay2, ag91, haolong2, juliahmr, jhasegaw}@illinois.edu [email protected]

## 1 引言

语音感知大语言模型（SALLMs）已成为语音处理领域的一个重要范式，它利用预训练大语言模型（LLMs）中编码的语言知识，在一系列语音任务上提升性能（Peng et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib25)）。尽管在高资源语言上表现强劲，但它们在域外场景下泛化能力较差，即使底层模型组件在预训练期间已经接触过目标语言或任务，这种情况仍然会发生。这表明SALLMs中的自适应问题不仅仅是获取新语言知识的问题，还包括对齐预训练的声学表示与语言模型解码空间，以应用于下游ASR任务。微调可以解决这些差距，但计算成本高且数据密集。参数高效的替代方案如LoRA（Hu et al., 2021 (https://arxiv.org/html/2606.00460#bib.bib13)）降低了成本，但仍需要对模型权重进行梯度更新。上下文学习（ICL）（Brown et al., 2020 (https://arxiv.org/html/2606.00460#bib.bib4)）无需训练，但受到语音高声学变异性的限制。与文本不同，语音在语义之外还编码了说话人身份和语音属性，这使得难以找到信息丰富的示范样本（Zheng et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib43)）。

一种补充方法是激活引导：在推理时直接扰动模型的内部表示，使其转向目标域，而不修改权重。引导已在语言模型中显示出有效性（Im and Li, 2025 (https://arxiv.org/html/2606.00460#bib.bib15)），并且最近开始被探索应用于语音（Sun et al., 2026 (https://arxiv.org/html/2606.00460#bib.bib38)；Feng et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib10)）。针对语音模态的现有方法依赖于对比激活差异，其中引导向量从配对的对比示例中推导。对于自动语音识别（ASR），自然的配对示例很难获得，这不同于语义任务。ASR要求输入音频与输出转录之间存在直接对应关系，而语音的高声学变异性使得对比对变得嘈杂且难以构建。这限制了现有引导方法在低资源、域外场景（即最需要高效自适应的场景）中的适用性。

在本文中，我们提出SALSA（通过学习的引导激活向量实现语音感知大语言模型自适应），这是一种轻量级自适应方法，直接为语音-语言模型学习逐层引导向量，无需配对对比示例。通过训练引导向量，SALSA可以学习适应声学变异性，并调整中间编码器表示以更好地与预训练语言模型表示空间对齐。我们的贡献如下：

- • 我们提出SALSA，一种基于引导的轻量级自适应方法，为预训练的SALLM学习逐层编码器引导向量，同时保持所有主干参数冻结。
- • 我们证明简单的学习引导向量对于域外ASR设置（包括儿童语音、多语言语音和代码转换语音）非常有效，相比于零样本和语音上下文学习基线有显著提升，且无需配对对比示例。
- • 我们分析了引导行为在训练规模、编码器深度和干预位置上的表现，表明自适应在更高层的编码器表示中最有效，而引导语言模型主干相比编码器引导带来的增益小得多。

## 2 背景

SALLM，如SALMONN (Tang et al., 2024 (https://arxiv.org/html/2606.00460#bib.bib39))、WavLLM (Hu et al., 2024 (https://arxiv.org/html/2606.00460#bib.bib14))、Qwen-Audio家族 (Chu et al., 2023 (https://arxiv.org/html/2606.00460#bib.bib8), 2024b (https://arxiv.org/html/2606.00460#bib.bib7)) 和 Granite-speech (Saon et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib34))，通常通过将预训练语音编码器与LLM主干耦合构建，其中仅训练一个轻量级投影层来桥接两种模态。这些模型支持广泛的任务，从传统语音处理任务（如ASR）到更开放的任务，包括对话语音和问答。然而，相对于本地语音模型如Whisper (Radford et al., 2023 (https://arxiv.org/html/2606.00460#bib.bib29))，SALLM通常在显著更少的语音数据上训练，且倾向于关注有限的、主要为欧洲语言的语言集合。因此，SALLM容易出现幻觉，并对域外数据泛化能力较差。

### 2.1 SALLM的自适应方法

通过全微调或参数高效方法如LoRA (Hu et al., 2021 (https://arxiv.org/html/2606.00460#bib.bib13)) 进行自适应可以解决域外局限性，但这类方法需要修改模型参数，在低资源或计算受限的设置下可能不切实际。最近，基于强化学习（RL）的后训练方法也被探索用于改进语音-语言模型，尽管这些方法同样需要迭代模型更新和大规模优化 (Guo et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib12); Rafailov et al., 2023 (https://arxiv.org/html/2606.00460#bib.bib30); Elmakies et al., 2026 (https://arxiv.org/html/2606.00460#bib.bib9))。一个更轻量级的替代方法是语音上下文学习（SICL）(Wang et al., 2024 (https://arxiv.org/html/2606.00460#bib.bib40))，最初为Whisper提出，后来扩展到SALLM (Omnilingual et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib23); Abouelenin et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib2); Roll et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib33))。Zheng et al. (2026 (https://arxiv.org/html/2606.00460#bib.bib42)) 进一步证明，选择语义相似的上下文样本在多种挑战性条件（包括儿童语音、口音语音和多语言设置）下能显著提升性能。然而，与文本不同，语音在说话人身份、韵律和声学条件上具有显著变异性，使得在域外设置中很难检索到信息丰富的示范样本。

### 2.2 引导

表示引导方法旨在通过在推理时直接干预神经网络的隐藏表示来控制模型行为。给定一个模型，其在层 \(l\) 处的隐藏表示为 \(\mathbf{h}_l \in \mathbb{R}^d\)，引导方法通过应用干预函数修改前向传播：

\(\tilde{h}_l = f(h_l, v, \alpha)\)，

其中 \(v\) 表示引导方向或变换，\(\alpha\) 控制干预强度。修改后的表示 \(\tilde{h}_l\) 随后传播至网络其余部分以影响模型输出。

许多引导方法使用加法干预，形式为：

\(\tilde{h}_l = h_l + \alpha v\)，

其中 \(v\) 对应于表示空间中与所需行为或属性相关的方向。早期工作表明，有意义的行為方向通常可以从对比示例中提取 (Rimsky et al., 2024 (https://arxiv.org/html/2606.00460#bib.bib32))，通过配对提示的隐藏激活之差计算引导向量。给定对应于正面和负面示例的激活 \(h_l^+\) 和 \(h_l^-\)，引导向量可计算为：

\(v = \frac{1}{N} \sum_{i=1}^N \left( h_{l,i}^+ - h_{l,i}^- \right)\)。

这种对比方法已通过基于PCA的引导方法得到扩展 (Liu et al., 2024 (https://arxiv.org/html/2606.00460#bib.bib19); Zou et al., 2023 (https://arxiv.org/html/2606.00460#bib.bib44))，该方法从对比激活差异的主成分中估计引导向量。通过识别解释对比对间最大方差的方向，基于PCA的方法旨在隔离更稳健和语义有意义的引导方向。像推理时干预 (Li et al., 2023b (https://arxiv.org/html/2606.00460#bib.bib18))、表示提取方法 (Subramani et al., 2022 (https://arxiv.org/html/2606.00460#bib.bib37))、个性化引导技术 (Cao et al., 2024 (https://arxiv.org/html/2606.00460#bib.bib5)) 和表示微调 (Wu et al., 2024 (https://arxiv.org/html/2606.00460#bib.bib41)) 等方法直接从数据中学习引导变换。它们不使用固定的加法向量，而是将干预参数化为可训练函数：

\(\tilde{h}_l = h_l + g_\theta(h_l)\)，

其中 \(g_\theta\) 可能由轻量级模块组成，这些模块经过训练以修改中间表示。与直接计算的引导向量相比，学习的干预可以捕获更复杂的变换。

虽然大多数先前的引导工作集中在语言模型上，但引导最近已开始扩展到多模态 (Sivakumar et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib36); Peng et al., 2024 (https://arxiv.org/html/2606.00460#bib.bib26); Parekh et al., 2026 (https://arxiv.org/html/2606.00460#bib.bib24)) 和语音设置。在语音-语言模型中，激活引导已被探索用于改善跨语音任务的模态对齐 (Feng et al., 2025 (https://arxiv.org/html/2606.00460#bib.bib10)) 以及增强在分布外场景中的鲁棒性 (Sun et al., 2026 (https://arxiv.org/html/2606.00460#bib.bib38))。在这些设置中，引导干预通常应用于投影到语言模型之前的编码器表示，目的是更好地将声学表示与LLM token空间对齐。

## 3 引导向量训练

先前的引导方法通常从配对示例的对比激活差异中构建引导向量，如第2.2节所述。这一范式最近也在语音-语言模型中得到探索，Sun et al. (2026 (https://arxiv.org/html/2606.00460#bib.bib38)) 从对比激活差异中构建引导方向，以改进对口音语音的ASR。然而，这种公式化不适合语音任务。配对语料在语音中稀缺，尤其是在域外设置中，且语音固有的声学变异性使得难以提取干净的对比信号。此外，与许多语义语言生成任务不同，ASR要求保持声学输入与文本输出之间的精确对应关系，对比引导可能产生的语义偏移容忍度有限。

我们不从激活差异中提取引导方向，而是直接使用监督任务目标优化引导向量。这消除了对配对对比示例的需求，并在表示空间中端到端地学习干预。

令 \(f_\theta\) 表示一个冻结的语音-语言模型，其在层 \(l\) 处的隐藏表示为 \(\mathbf{h}_l \in \mathbb{R}^d\)。我们学习一组逐层引导向量 \(\mathcal{V} = \{\mathbf{v}_l\}_{l=1}^L\)，其中 \(\mathbf{v}_l \in \mathbb{R}^d\)，\(L\) 是语音编码器中被引导的层数。遵循先前的加法引导方法，中间表示通过以下方式修改：

\(\tilde{\mathbf{h}}_l = \mathbf{h}_l + \mathbf{v}_l\)。

在训练期间，所有参数 \(\theta\) 保持冻结，仅优化引导向量 \(\mathcal{V}\)。

#### 引导机制。

为了稳定引导，我们在每个被引导的层应用范数保持更新：

\(\tilde{\mathbf{h}}_l = \frac{\mathbf{h}_l + \mathbf{v}_l}{\|\mathbf{h}_l + \mathbf{v}_l\|} \cdot \|\mathbf{h}_l\|\)。 (1)

这种重归一化保留了原始激活幅度，同时仅修改表示方向。

#### 训练目标。

令 \(p_{\theta,\mathcal{V}}\) 表示在引导干预 \(\mathcal{V}\) 下冻结模型产生的下一个 token 分布。给定音频输入 \(x\) 和参考转录 \(y^\star\)，我们使用自回归交叉熵目标优化引导向量：

\(\mathcal{L}(\mathcal{V}) = -\mathbb{E}_{(x,y^\star)} \left[ \sum_{t=1}^{|y^\star|} \log p_{\theta,\mathcal{V}} \left( y_t^\star \mid x, y_{<t}^\star \right) \right]\)。

由于所有主干参数保持冻结，优化完全通过表示级干预进行。

#### 优化细节。

所有配置共享相同的训练设置。我们使用 AdamW (Loshchilov and Hutter, 2019 (https://arxiv.org/html/2606.00460#bib.bib20)) 优化引导向量，学习率 \(\eta \in \{10^{-4}, 5 \times 10^{-4}\}\)，批量大小为 1，梯度裁剪最大范数 1.0。训练最多进行 20 个 epoch，基于验证 WER 使用早停（耐心 3）。

#### 推理。

在推理时，学习到的引导向量 \(\mathcal{V}\) 使用公式 (1) 注入到所选层中（https://arxiv.org/html/2606.00460#S

SALSA：通过学习的引导激活向量实现语音感知LLM的自适应

相似文章

你的LLM何时可引导？

你的LLM何时可引导？

多语言设计导向的调控：多语言稀疏自编码器与原则性层选择

通过定向干预实现语言模型的多属性引导

UniSteer：文本引导的激活空间流匹配实现多功能大语言模型操控

提交意见反馈