你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

arXiv cs.CL 2026/06/17 04:00 论文

摘要

本文解决了多模态大语言模型在ASR中的口语遵循问题，提出了一种软提示方法和新颖的度量标准来量化语言违规。它评估了三种缓解策略——零样本提示、监督微调和思维链推理——在多种语言上的效果，以提高转录保真度。

arXiv:2606.17281v1 公告类型：新摘要：虽然基于大型语言模型（LLM）的自动语音识别（ASR）能够实现无缝的多语言使用，但模型常常错误识别输出语言，损害转录保真度和下游应用质量。为了保持灵活性和代码切换能力，我们提出了一种软提示方法，暗示可能的口语而不严格约束输出。我们正式将这一挑战定义为缺乏语言遵循，引入了一个新颖的度量标准来量化违规，并评估了三种缓解策略：（1）零样本提示，用于在不确定情况下提供稳健指导；（2）监督微调（SFT），以提高提示遵循度；（3）思维链（CoT）推理，在解码过程中强制遵循。我们对这些方法在多种语言上进行了比较分析，评估了在减少语言违规同时保持整体ASR性能方面的有效性。最后，我们讨论了在不同计算约束下指导策略选择的权衡。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:39

# 你说我的语言吗？多模态大语言模型中的口语遵循问题  
来源：https://arxiv.org/html/2606.17281 \uselogo  

###### 摘要  
尽管基于大语言模型（LLM）的自动语音识别（ASR）支持无缝的多语言使用，但模型常常错误识别输出语言，损害转录保真度和下游应用质量。为了保持灵活性和代码切换能力，我们提出了一种软提示方法，该方法暗示可能的口语语言，而不严格约束输出。我们正式将此挑战定义为缺乏语言遵循（language adherence），引入一个新指标来量化违规，并评估三种缓解策略：(1) 在不确定性下提供稳健指导的零样本提示；(2) 通过监督微调（SFT）改善提示遵循；(3) 通过思维链（CoT）推理在解码过程中强制遵循。我们针对多种语言对这些方法进行了比较分析，评估其在减少语言违规的同时保持整体ASR性能的有效性。最后，我们讨论了不同计算约束下指导策略选择的权衡。  

## 1 引言  

### 1.1 背景  
大语言模型（LLM）显著推动了多语言自动语音识别（ASR）的发展，支持跨多种语言的灵活零样本转录，包括代码切换（同一话语中混合多种语言）。虽然灵活，但这类系统在短片段或噪声片段中常常错误识别目标语言。稳健的多语言支持需要整合用户上下文；具体而言，语言提示（language hinting）引导模型朝向预期语言，同时不限制用户的代码切换能力。这种方法成功地在转录准确性与语言自由度之间取得了平衡。  

### 1.2 问题陈述  
语言遵循的缺失会从根本上降低转录保真度，引入扭曲原始意义的错误。这种不可靠性直接损害依赖准确ASR的下游任务，如机器翻译、情感分析和命令系统。此外，糟糕的遵循会带来令人不快的负面用户体验。与典型的ASR错误不同，错误的外语文本可能显得业余，或被认为对文化背景不敏感、对用户口音存在偏见，从而侵蚀对技术的信任。我们需要一种在支持灵活多语言交互的同时减轻这些陷阱的方法。  

### 1.3 提出的方法与贡献  
为了系统性地解决语言遵循不良的问题，本文引入了一种多方面的方法，涵盖形式化、度量和缓解。我们的主要贡献如下。首先，我们正式定义了“语言遵循违规”（Language Adherence Violation），并提出一个新指标来量化这些情况，提供标准化的评估方法。然后，我们讨论了获取可靠语言偏好的固有困难。其次，我们提出并研究了三种非互斥的缓解策略，以改善语言遵循，同时在灵活性以及对错误语言信号的稳健性之间取得平衡：  
- • **提示工程**：使用精心设计的提示引导LLM关注目标语言，同时评估其对不完美信号的稳健性。  
- • **带指令的监督微调（SFT）**：在SFT过程中使用语言遵循提示，以固化所需的转录行为。  
- • **思维链（CoT）**：实施一个推理步骤，强制模型在转录前首先识别并声明所讲的语言。  
最后，我们对这些方法在单语和代码切换数据集上进行了全面的比较分析，评估语言信号准确性与模型稳健性之间的权衡。为保持对基于提示方法的聚焦比较，我们不探索强化学习方法。  

## 2 相关工作  

### 2.1 多语言与代码切换ASR  
一些早期的多语言神经ASR模型为每种语言使用独立的输出层（scanzio2008），需要事先知道目标语言。另一些方法将单热语言ID嵌入添加到输入特征中，使模型能够学习特定语言的偏置（li2018）。虽然语言ID可以从音频中估计（cole1989; ma2002; lopez2014; bazazo2023），但由于可靠估计所需的延迟，与流式ASR的整合很困难。为解决这一问题，waters2019; zhang2022利用并行语言ID模块为RNN-T模型提供运行估计，而更复杂的解决方案结合识别与验证来调和信号（kim2025）。watanabe2017提出了另一种联合建模声学语言ID和ASR的方法：他们修改训练数据，将语言标签作为参考转录的第一个词，从而教会模型在输出文本前预测语言。虽然这接近当今LLM处理多任务的方式，但其编码器基于双向LSTM，能够在输出语言ID估计之前访问整个输入音频，因此不适合流式处理。不过，这是一项值得注意的研究，因为它明确讨论了语言遵循率。在印度语言的代码切换背景下，emond2018; datta2020提出将所有数据音译为单一通用脚本，这产生了积极的跨语言效果，并有助于资源匮乏的语言。虽然这对建模某些语言对有效，但在最一般的情况下，恢复原始拼写以呈现ASR假设可能不可行。  

### 2.2 语音处理中的语言识别  
为监控无约束的多语言ASR或LLM输出，稳健的文本语言识别（LangID）至关重要，通常使用基于字符的N-gram分类器（cavnar1994; caswell2020）。虽然对长句有效，但这些分类器在短输入（如“ja”——在十多种语言中存在的词）上表现不佳，需要额外上下文（如用户资料或对话历史）来提高准确性。此外，它需要足够灵活，允许专有名词（例如法语句子中关于公司的“Apple”）或借词（例如德语中关于移动应用的“Download”）的正常使用，并在代码切换环境中识别单个字符跨度。虽然只有少数语言有独特的书写系统（如亚美尼亚语、格鲁吉亚语、希腊语），但许多语言出于历史原因共享其字母表的大部分。例如，欧盟24种官方语言中有22种使用拉丁字母。这增加了相互可理解性：即使法语使用者不理解某个意大利语单词，至少他们能识别大部分字符，甚至可能根据上下文猜测发音和含义。相反，接触阿拉伯语或中文文字的法语使用者则不太可能做到这一点。这一简单观察表明，专注于识别意外的**文字系统**（script）而非语言可能更实用。这可以基于Unicode范围非常高效地完成（qasim2024）。  

### 2.3 大型语言模型在ASR中的应用  
继早期模态融合方法（sun2019; zheng2021; bapna2022; wang2023）之后，如今大多数领先的LLM原生支持多模态。它们在文本、音频和图像上训练，使用特定模态的编码器进行分词，以产生统一空间中的特征或来自单个扁平词汇表的token。为了将LLM用于语音识别，通常提示“转录以下音频：”，后跟音频token。虽然可以在同一个LLM调用中处理某些任务（例如，以音频输入并立即生成音频token作为响应），但仍有应用选择链式使用不同模型。在这样的级联系统中，ASR假设被用作另一个模型的输入（例如，输入到不同的LLM或机器翻译系统），下游应用的质量可能因ASR转录中的语言遵循问题而严重受损。需要额外上下文来消除音乐类型“Soul”与韩国首都“서울”（英文“Seoul”）之间的歧义。  

### 2.4 生成模型中的显式语言控制  
虽然对形式语言（如代码）的控制生成已被广泛研究（例如借助有限状态自动机，koo2024），但对自然语言尚没有成熟的解决方案。由于使用束搜索解码LLM通常被认为成本高昂，混合解决方案寻求启发式地修改logit或概率值，以支持或抑制词汇表的子集，然后再由解码器采样下一个token（dathathri2019）。  

## 3 衡量语言遵循  

### 3.1 语言遵循指标  
为进行离线评估，我们假设测试集中每个话语可以唯一地用一组在音频中出现的语言 L_ref 来标注。通常，该集合只包含一种或两种语言。如第2.2节所述，可以使用外部文本语言识别工具来获取生成输出中出现的语言集合 L_hyp。由于假设可能包含识别错误，我们不要求集合完全匹配。  
**定义**：只要 L_hyp ⊈ L_ref，模型生成输出就违反了语言遵循。因此，对于具有 N 个话语的数据集，**语言遵循违规率（LAVR）**为：  
LAVR = (1/N) * Σ_{i=1}^N I(L_{hyp,i} ⊈ L_{ref,i})   (1)  
其中 I 是指示函数，L_{hyp,i} 和 L_{ref,i} 是第 i 个话语的语言集合。在本研究的背景下，衡量语言遵循违规（有时称为“（局部）语言幻觉”），我们操作性地将“语言”定义为其对应的**规范文字系统**；因此，“语言违规”发生在ASR系统产生的文字系统与目标语言的标准正字法不一致时。因此，德语测试集的预期“语言”集实际上被定义为可接受字符集 L_ref := [a-zäöüß]。类似地，L_hyp 是生成输出中出现的字符集。例如，“Danke schön”和“Thank uoy”对于德语都是语言遵循的（注意“uoy”中的拼写错误），但“Danke sçhön”不是，因为出现了‘ç’。此外，我们将ASCII字符中的基本标点和数字视为“中性”，将其排除在测量之外，而保留语言特定的标点（例如“¿”）。注意，L_hyp 中单个意外字符就标记整个话语为违规。考虑到我们评估集的同质长度分布，这是一个可接受的简化。我们的最终目标是，在用户偏好不确定的情况下，降低违反语言遵循的话语比例，同时不增加词错误率（WER）。低语言遵循违规率表明对多语言系统行为的高度控制。  

### 3.2 指标范围与局限性  
如第2.2节所述，基于词级文本语言识别的语言遵循指标可能存在歧义。我们发现，即使许多现实世界测试集的参考转录也存在非零的语言遵循违规。这部分是由于借词（例如“Kindergarten”）或专有名词（例如“Versace”）。另一方面，作为粗粒度指标，参考转录中字符级语言遵循违规率非常接近零。唯一的违规是由于以外语原文字拼写的外来词，例如“jalapeño”或“Beyoncé”。因此，许多芬兰语和英语单词在德语测试集中会被视为“可接受”。这与第2.2节讨论的用户感知中的意外概念一致。字符级指标会遗漏一个假设的Bug——该Bug从德语元音中删除了所有变音符号。如果解码文本仅由单词“hello”或一些像“asdf”的乱码组成，该指标也会保持为零。这是所提出指标的一个局限性，可以认为是以查准率换取查全率：**如果**存在一个可能引起用户注意的字符，**那么**我们要确保标记它。它应始终由参考与假设之间的标准WER来补充。  

### 3.3 在线指标  
衡量真实流量中的性能具有挑战性，因为人工转录成本高昂且难以扩展。我们建议使用用户语言设置和过去的对话作为 L_ref 的代理，尽管这种方法有局限性。例如，双语用户可能说法语但收到西班牙语的错误识别，但如果两种语言都在其设置中，则不会标记；相反，仅设置英语但自然切换到印地语的用户会触发虚假违规。这些场景，包括学习新语言和国际旅行，展示了该形式主义的局限。因此，我们建议监测语言遵循的相对变化，而不是追求绝对为零。  

## 4 提出方法与实验结果  
如第3节所述，准确识别口语并不总是可能，且上下文信号可能具有误导性。认识到这一挑战，我们探索了三种改进语言遵循的机制。虽然这些方法可以独立实现并以不同方式组合，但我们选择依次评估它们，并将最佳结果用于下一阶段。  

### 4.1 实验设置  
**评估数据集**：我们收集了两类数据集：单语和代码切换。单语数据集包含每种语言数千条用户查询，来自与生产级AI智能体的真实交互。大多数话语长度在5到20个词之间。对于代码切换，我们从大约10,000条匿名查询数据集中合成了音频，其中用户使用不同的语音在英语与另一种语言之间切换。这些话语长度通常在5到10个词之间。评估数据集的统计信息和示例话语见附录。我们在正文中报告英语、法语、印地语、韩语及其与英语配对的结果；其他语言的结果见附录。  
**基线模型**：我们使用Gemini Flash Lite 2.0作为基础模型。具体而言，零样本实验的基线模型是Gemini 2.0 Flash Lite的专有变体，针对通用ASR任务进行了微调。它是一个基于深度Transformer的LLM，在本文讨论的所有语言的大规模转录语音上进行了训练。对于SFT和CoT实验，我们使用专有的转录语音数据集（主要是单语和代码切换的单话语录音）进一步微调。  
**评估指标**：对于每种提出的方法，我们计算字符级LAVR（定义于公式1）和词错误率（WER）。我们通过在与实际使用相关的四种场景中改变提示中的语言提示来评估性能：  
- • **无提示**：不提供语言提示。  
- • **正确**：提示提供正确的语言。

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

相似文章

从输入端最小化模态差距：您的语音大语言模型可以成为具备韵律感知能力的文本大语言模型

面向中英文混合语音识别的音频大语言模型直接偏好优化

并非放之四海而皆准：多语言大语言模型中从固定提示到可学习路由的演进

大语言模型可通过正确提示更好地捕捉人类判断

如何利用合成语音构建基于LLM的ASR系统？

提交意见反馈