面向IWSLT 2026指令跟随的FBK长时SpeechLLMs
摘要
本文介绍了FBK在IWSLT 2026指令跟随共享任务中的提交,开发了用于短时和长时语音指令跟随的SpeechLLMs,探索了分割方法,并通过固定30秒分割实现了稳健的长时性能。
查看缓存全文
缓存时间: 2026/06/26 05:19
# FBK 面向 IWSLT 2026 指令跟随的长语音 SpeechLLM
来源:https://arxiv.org/html/2606.26819
Zhihang Xie¹,², Marco Gaido¹, Sara Papi¹, Matteo Negri¹, Luisa Bentivogli¹
¹ 布鲁诺·凯斯勒基金会,² 特伦托大学
###### 摘要
本文描述了我们在 IWSLT 2026 指令跟随共享任务上的提交方案。我们开发了适用于短时和长时语音指令跟随的 SpeechLLM,并均在受约束设置下进行。在短时赛道中,我们的模型在 MCIF 上取得了强劲性能,SIFS 得分为 2.0708。对于长时赛道,我们探索了三种语音分割方法,并引入了 HIFS 分数以考量不稳定的长时生成。实验结果表明,固定 30 秒分割提供了最稳健的长时性能,最高 HIFS 得分为 2.0663。进一步分析显示,幻觉主要表现为生成输出中的重复插入,这显著影响了 ASR 和 SSUM,而短时能力在长时扩展后基本得以保留。
FBK 面向 IWSLT 2026 指令跟随的 SpeechLLM
Zhihang Xie¹,², Marco Gaido¹, Sara Papi¹, Matteo Negri¹, Luisa Bentivogli¹
¹ 布鲁诺·凯斯勒基金会,² 特伦托大学
## 1 引言
语音大语言模型(SpeechLLMs)通过模态适配器将语音编码器与 LLM 解码器连接起来,将大语言模型的指令跟随(IF)能力扩展到语音输入 (Chen et al., 2024; Huang et al., 2024)。这种架构支持通过自然语言指令完成多种语音到文本任务,包括自动语音识别(ASR)、语音翻译(ST)、口语问答(SQA)和语音摘要(SSUM)。与任务特定系统相比,指令跟随 SpeechLLM (Fathullah et al., 2024; Lee et al., 2025) 为多语言、多任务的语音处理提供了灵活接口,同时使语音输入能够受益于预训练 LLM 的生成能力。
2026 年国际口语语言翻译会议(IWSLT)指令跟随共享任务¹²评估基于语音的指令跟随系统在短时和长时设置下的表现。短时赛道专注于短时语音,涵盖多种语言的 ASR、ST 和 SQA。长时赛道将设置扩展到更长的音频,要求系统完成 ASR、ST、SQA、SSUM 和音频章节划分(ACHAP)。两个赛道共同为评估指令跟随能力和对长时语音的鲁棒性提供了基准。
尽管 SpeechLLM 近期取得了进展,长时语音处理仍然充满挑战。长时输入会带来高计算成本、长声学标记序列、篇章级上下文建模以及幻觉风险。在 IWSLT 2025 中,KIT (Koneru et al., 2025) 是长时赛道的唯一参与方 (Abdulmumin and others, 2025)。对于 SpeechLLM,更长的语音序列会给 LLM 上下文带来更大压力,并可能导致不稳定的生成。因此,目前仍不清楚短时 SpeechLLM 能多有效地扩展到长时设置、短时能力在多大程度上得以保留,以及哪种分割策略对长时推理最有效。
在受约束设置下,本研究考察了三个假设:(1) 长时扩展可以提升长时性能,同时保持有竞争力的短时能力;(2) 语音分割显著影响长时指令跟随;(3) 需要幻觉感知的评估才能可靠比较长时系统。主要贡献如下:
参考标题 (a) 模型架构
参考标题 (b) 短时微调
参考标题 (c) 长时扩展
图 1:面向短时和长时赛道的 SpeechLLM 模型架构与训练流程。
- • 在受约束设置下,为短时和长时指令跟随提供了实用且有效的 SpeechLLM 解决方案。
- • 对三种语音分割策略进行了实验比较:固定窗口、基于 CRDNN 和混合分割。
- • 详细分析了长时扩展后的幻觉影响及短时能力保留情况。
## 2 模型架构
在受约束设置中,SpeechLLM 必须基于两个预训练模型构建:SeamlessM4T-v2-large²² 和 Qwen3-4B-Instruct³³。如图 1(a) 所示,我们的 SpeechLLM 包含一个语音编码器、一个模态适配器和一个 LLM 解码器。短时赛道和长时赛道的模型架构相同,微调后的短时 SpeechLLM 可直接扩展到长时形式。
### 2.1 语音编码器
语音编码器采用 SeamlessM4T-v2-large,作为模型的声学前端,将原始语音转换为用于下游处理的中间语音表示 (Barrault and others, 2023)。特征提取器以 16 kHz 音频为输入,将原始波形转换为 80 维对数梅尔滤波器组特征,跳步大小为 10 ms,特征提取频率为 100 Hz。然后在前端应用步长为 2 的降采样,将两个连续帧合并为 160 维表示,再进行特征投影,从而将时间分辨率降至 50 Hz。这些声学特征连同指示有效和填充位置的注意力掩码一起提供给模型。通过这种方式,特征提取器构成了语音输入与编码器堆栈之间的接口。
语音编码器基于提取的声学特征构建,包含一个特征投影模块和一个 Conformer 堆栈 (Koluguri et al., 2023)。特征投影将 160 维前端特征映射到模型隐藏大小 1024,然后 Conformer 编码器将其处理为高级语音表示,同时保持 50 Hz 的时间分辨率。在已发布的大型配置中,编码器包含 24 个 Conformer 层,每层有 16 个注意力头和中间维度为 4096 的前馈网络。每个 Conformer 块中结合了相对位置表示 (Dai et al., 2019) 和核大小为 31 的深度可分离卷积,使编码器能够有效捕捉长程上下文依赖和局部声学结构。
### 2.2 模态适配器
模态适配器包含从 SeamlessM4T-v2-large 继承的用于时间压缩的适配器,以及一个用于投影到 LLM 解码器隐藏空间的线性适配器。
给定来自语音编码器的 50 Hz 语音表示,一个中间前馈模块首先将编码器输出(隐藏大小为 1024)进行转换,然后传递给继承的适配器进行时间压缩。在该适配器中,残差分支和自注意力分支分别应用一维卷积(核大小 8,步长 8,填充 4),后接门控线性单元。这种设计将序列长度减少约 8 倍,产生大约 6.25 Hz 的有效帧率,同时保持 1024 维的隐藏大小。
适配器层包含自注意力和一个中间维度为 4096 的前馈网络,使得压缩表示在降采样后得以进一步精炼。在继承的适配器之后,引入了一个线性适配器,将压缩的语音表示从 1024 投影到 2560。该投影使语音表示与解码器输入空间对齐,从而使生成的语音标记与文本标记具有相同的维度。
### 2.3 LLM 解码器
LLM 解码器继承自 Qwen3-4B-Instruct,利用其强大的指令跟随能力进行通用推理和标记生成。为了融入语音模态,采用了前置融合机制 (Lam et al., 2025),即将语音表示前置到指令的文本嵌入之前。此外,常用参数高效微调方法(如 LoRA (Hu et al., 2021))来使 LLM 适应下游任务,而无需更新全部模型参数 (Chen et al., 2024; Microsoft, 2025)。
参考标题 (a) 短时能力
参考标题 (b) 长时能力
图 2:短时和长时能力雷达图,ASR 以准确率衡量,ST 以平均 COMET 分数衡量,SQA 和 SSUM 以 BERTScore 衡量,长时分数受幻觉率惩罚。
## 3 短时赛道
### 3.1 语料库
在受约束设置中,训练使用 CoVoST2 (Wang et al., 2020)、EuroParlST (Iranzo-Sánchez et al., 2020)、GigaST (Ye et al., 2023) 和 LibriSQA (Zhao et al., 2024)。对于数据增强,使用 SeamlessM4T-v2-large 和 Qwen3-4B-Instruct 生成合成数据。验证主要基于 MCIF (Papi et al., 2026) 短时赛道数据集。
训练语料库(汇总于表 4)包含 5,056,973 个样本,总时长为 8,436.63 小时,平均时长为 6.01 秒。由于这些语料库在标注格式、语言覆盖和任务监督方面差异显著,我们应用了数据集特定的处理来构建统一的、面向多语言的指令跟随训练集,涵盖 ASR、ST 和 SQA。具体而言,当缺少目标语言标注时,使用 SeamlessM4T-v2-large 生成合成翻译;使用 COMET (Rei et al., 2022) 过滤低质量样本;当问答监督不可用或有限时,使用 Qwen3-4B-Instruct 生成合成问答对。还引入了一小部分不可回答的示例,以提高 SQA 的鲁棒性。每个数据集的处理过程如下所述。验证主要在 MCIF (Papi et al., 2026) 短时赛道数据集上进行,该数据集为多个短时任务和语言提供了统一基准。
**CoVoST2**:原始数据集提供英语转录文本以及从英语到德语和汉语的翻译。由于缺少意大利语翻译,我们使用 SeamlessM4T-v2-large 从英语转录生成,然后使用 COMET (Rei et al., 2022) 分数低于 0.85 的标准移除低质量翻译。为了增加口语问答的训练数据量,使用 Qwen3-4B-Instruct 生成合成问答对。此外,为了显式模拟不可回答情况,每种语言随机采样 5% 的样本,将其问题替换为从其余样本中随机抽取的问题,并将其答案设置为对应语言的“不可回答”。
**EuroParlST**:原始数据集提供英语转录文本以及从英语到德语和意大利语的翻译。提供两个训练子集:train 和 train-noisy,但仅使用 train 子集。未生成从英语到汉语的合成翻译。
**GigaST**:原始数据集提供英语转录文本以及从英语到德语和汉语的翻译。提供五个训练子集:XS、S、M、L、XL,但仅使用 M 子集以保持训练数据规模与其他数据集相当。由于英语转录文本全部为大写,我们使用 Qwen3-4B-Instruct 进行文本规范化,将其转换为自然句子形式。基于 COMET 分数低于 0.85 的标准移除低质量翻译。
**LibriSQA**:原始数据集提供英语转录文本以及问答对。为了创建合成翻译,首先使用 SeamlessM4T-v2-large 将英语转录翻译为德语、意大利语和汉语,然后分别基于 COMET 阈值 0.8、0.8 和 0.75 移除低质量翻译。然后使用 Qwen3-4B-Instruct 生成合成问答对。按照与 CoVoST2 相同的流程,随机选择 5% 的样本,将其答案替换为对应语言的“不可回答”。
### 3.2 训练策略
训练流程如图 1(b) 所示。SpeechLLM 总共包含 4.73B 参数,并引入了一个新的双层线性模块(中间维度为 3584)。通过训练 112.2M 参数实现参数高效微调,LoRA 应用于查询、键和输出投影模块,秩为 8,alpha 为 16。模型使用 AdamW 优化器训练两个周期,总批次大小为 128,梯度裁剪设为 1.0。基础模型和 LoRA 参数使用不同的学习率,分别为 1e-4 和 3e-4,同时采用余弦学习率调度器和覆盖总训练步骤 3% 的预热阶段。为了提高鲁棒性,应用了数据增强,包括速度扰动(因子 [0.9, 1.0, 1.1])和 SpecAugment(两个时间掩码和两个频率掩码,最大掩码宽度分别为 50 和 10)。模型在四块 NVIDIA A100 64GB GPU 上训练约两天,并使用最终检查点进行评估和提交。
### 3.3 系统评估
| 提交 | 语言 | ASR 准确率 | ST COMET | SQA BERTScore | SIFS |
|------|------|-----------|----------|---------------|------|
| 主要(短时) | en-en | 0.8877 | - | 0.4426 | |
| | en-de | - | 0.7286 | 0.4152 | |
| | en-it | - | 0.7496 | 0.4034 | |
| | en-zh | - | 0.7869 | 0.4513 | |
| | 分数 | 0.8877 | 0.7550 | 0.4281 | 2.0708 |
| 对比(长时) | en-en | 0.8640 | - | 0.4413 | |
| | en-de | - | 0.7036 | 0.4294 | |
| | en-it | - | 0.7516 | 0.4128 | |
| | en-zh | - | 0.7425 | 0.4466 | |
| | 分数 | 0.8640 | 0.7326 | 0.4325 | 2.0291 |
表 1:主要系统和对比系统在 MCIF 短时任务上的性能。
验证在 MCIF (Papi et al., 2026) 短时赛道数据集上进行,覆盖多个任务和语言。短时指令跟随分数(SIFS)通过求和平均任务级分数计算,如公式 1 所示。这里,T 包括 ASR、ST 和 SQA;L_t 表示任务 t 有有效结果的语言对;m_{ℓ,t} 表示任务特定分数,其中 ASR 以 1-WER 衡量。
\[
\mathrm{SIFS} = \sum_{t \in \mathcal{T}} \frac{1}{|\mathcal{L}_t|} \sum_{\ell \in \mathcal{L}_t} m_{\ell,t}.
\]相似文章
@Chenyang_Lyu:隆重开源LongSpeech,将亮相#ICASSP2026!多数音频大模型聚焦短音频,却难啃长音频……
研究团队发布LongSpeech:含10万条约10分钟片段的数据集,覆盖8项任务,用于评测长音频理解能力,将在ICASSP 2026亮相。
面向长上下文大语言模型的训练-推理一致性分段执行
本文提出了一种面向长上下文大语言模型的训练-推理一致性分段执行框架,旨在解决全上下文训练与受限推理机制之间的不匹配问题,在显著降低内存占用的同时实现了相当的性能。
基于SpeechLLM的流式语音转文本翻译
提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。
LiFT:指令微调能否提升大语言模型的纵向建模上下文学习能力?
## 指令微调能否提升大语言模型的纵向建模上下文学习能力? 来源:[https://arxiv.org/html/2604.16382](https://arxiv.org/html/2604.16382) Iqra Ali¹, Talia Tseriotou¹, Mahmud Elahi Akhter¹, Yuxiang Zhou¹, Maria Liakata¹,² ¹伦敦玛丽女王大学(英国),²艾伦·图灵研究所(英国) {iqra.ali,t.tseriotou,m.liakata}@qmul.ac.uk ###### 摘要 纵向NLP任务要求对时间有序的文本进行推理,以检测人类行为和观点的持续性和变化。然而,大语言模型的上下文学习在模型必须整合历史上下文、跟踪不断演变的交互,以及处理罕见变化事件的任务上存在困难。我们提出了LiFT,一个纵向指令微调框架,将多样化的纵向建模任务统一在共享的指令模式之下。LiFT采用课程式方法,在逐步增加时间难度的同时融入少样本结构和时间条件化,以鼓励有效利用过去上下文。我们在五个数据集上评估了LiFT。在不同时间粒度级别上针对纵向任务训练的模型,在两个独立数据集上进行了泛化能力测试。在不同参数规模的模型(OLMo(1B/7B)、LLaMA-8B和Qwen-14B)中,LiFT始终优于基线模型的上下文学习,在分布外数据和少数类变化事件上表现出显著的提升。
释放全双工语音模型中LLM的能力
提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,允许单个自回归LLM持续监听、书写可见文本并实时说话,实现无需架构修改的全双工语音交互。