面向中英文混合语音识别的音频大语言模型直接偏好优化

arXiv cs.CL 2026/05/26 04:00 论文

摘要

本文应用直接偏好优化（DPO）来对齐音频大语言模型，以转录中英文混合语音，在分布内实现了高达89.6%的MER降低，在分布外实现了20%的降低。它识别出三种失败模式——语言遗漏、翻译替代转录以及幻觉——并表明基于偏好的对齐能有效激发多语言音频大语言模型的正确混合转写行为。

arXiv:2605.23975v1 公告类型：新摘要：尽管音频大语言模型（Audio LLMs）具备强大的多语言能力，但在转录混合语音时仍表现出系统性失败。聚焦中英文混合场景，我们识别出三种失败模式：语言遗漏、翻译替代转录和幻觉。我们应用直接偏好优化（DPO）来对齐模型，构造偏好对，其中选择响应保留混合语言内容，而拒绝响应模仿失败模式。在100K对（570小时）上训练三个音频大语言模型后，我们观察到一致的行为转变：模型学会了在要求转录时保持语言组成而非翻译。这种对齐在分布内实现了高达89.6%的MER降低，在分布外实现了20.0%的降低。我们的发现表明，DPO能有效激发多语言音频大语言模型的正确混合转写行为。

查看原文

查看缓存全文

缓存时间: 2026/05/26 08:59

# 英语-普通话代码转换语音识别的直接偏好优化方法（音频大语言模型）

来源：https://arxiv.org/html/2605.23975  
Trung Won Pham He Sun Aw  

Cheng Yi LewisMinh DucYingxuShuoAi Ti1新加坡科技研究局信息通信研究所 \(I2R\), A⋆STAR 2南洋理工大学, 新加坡  
quangtrung5705@gmail\.com (mailto:[email protected])  

###### 摘要

音频大语言模型（Audio LLMs）尽管具备强大的多语言能力，但在转写代码转换语音时仍存在系统性缺陷。本文聚焦英语-普通话代码转换，识别出三种失效模式：语言遗漏、翻译替代转写、以及幻觉。我们应用直接偏好优化（DPO）对模型进行对齐，构建偏好对：其中“选择”响应保留混合语言内容，“拒绝”响应则模仿上述失效模式。在100K个偏好对（570小时）上训练三个音频大语言模型后，我们观察到一致的行为转变：模型学会保留语言组成，而非在提示转写时进行翻译。这种对齐在分布内测试集上将混合错误率（MER）降低高达89.6%，在分布外测试集上降低20.0%。实验结果表明，DPO能够有效激发多语言音频大语言模型的正确代码转换转写行为。

###### 关键词:

代码转换, 语音识别, 音频语言模型, 直接偏好优化, 多语言自动语音识别

††本工作完成于Nguyen Quang Trung在新加坡科技研究局信息通信研究所（I2R, A⋆STAR）实习期间。## 1 引言

音频大语言模型（Audio LLMs）扩展了大型语言模型的能力，使其能够处理和理解音频输入及文本，从而支持语音识别、音频字幕和口语对话等任务\[radford2023robust, chu2024qwen2, tang2023salmonn\]。自Whisper\[radford2023robust\]通过大规模弱监督奠定基础以来，众多模型展现出强大的多语言能力：Qwen2-Audio\[chu2024qwen2\]和Qwen-Omni系列\[xu2025qwen2, Qwen3-Omni\]支持多种语言；Phi-4 Multimodal\[abouelenin2025phi\]通过其Mixture-of-LoRAs架构展示了多语言性能；MERaLiON\[he-etal-2025-meralion\]则专门面向东南亚多语言场景设计。这些进展表明，现代音频大语言模型具备多语言熟练度，这在Common Voice\[ardila2020common\]和FLEURS\[conneau2023fleurs\]等基准测试中已达到最先进水平。

然而，这种多语言能力并不会自动扩展到代码转换——即在对话或话语中交替使用不同语言的现象，这在全球多语言社区中非常普遍。我们聚焦于英语-普通话代码转换，因为它是东南亚地区研究最广泛的语言对之一，SEAME语料库\[lyu10_interspeech, zeng2018seame\]是标准基准。尽管音频大语言模型具备多语言能力，但即使在监督微调阶段加入了大量代码转换数据的模型（如MERaLiON），在转写代码转换语音时仍表现出系统性缺陷。通过分析，我们识别出三种不同的失效模式：(1) 语言遗漏，模型只输出一种语言而丢弃另一种；(2) 翻译替代转写，模型将混合语言内容翻译成单一语言，而非保留原文；(3) 幻觉，模型生成重复或虚构内容。

先前的工作已探索多种方向来解决自动语音识别（ASR）中的代码转换问题。早期系统依赖于混合流水线，例如音素合并\[vu2012first\]和因式分解语言模型\[adel2013combination\]。近期方法则侧重于通过音频拼接\[hussein2024collage, nguyen2025noreal\]减少对自然发生的代码转换数据的依赖；通过带有语言感知解码的编码细化\[zhao2025whispercs, liu2023reducing, liu2024interactive\]适应基础模型；以及采用专家混合架构进行语言专用处理\[zhang2025moe, ye2024scmoe\]。然而，这些方法均未明确针对音频大语言模型在代码转换转写上的行为对齐问题。

我们假设音频大语言模型潜在地具备生成正确代码转换转写的能力，并且可以通过偏好优化来激发这种行为。为验证此假设，我们采用直接偏好优化（DPO）\[rafailov2023dpo\]，这是一种常见的大型语言模型直接对齐算法。在语音领域，SpeechAlign\[zhang2024speechalign\]首次展示了DPO在编解码语言模型对齐中的有效性。值得注意的是，Qwen2-Audio\[chu2024qwen2\]已在训练流程中集成了DPO。然而，据我们所知，尚无现有工作专门将DPO应用于音频大语言模型的代码转换转写能力。因此，我们研究DPO作为一种潜在方法：给定已展示多语言能力的模型，我们询问DPO是否能够激发正确的代码转换转写行为。

为实现该方法，我们构建DPO训练对：将真实代码转换转写（选择）与合成生成的缺陷转写（拒绝）配对，这些缺陷转写模仿了上述失效模式。利用约100K个偏好对（约570小时），这些数据来源于自然和合成的代码转换数据，我们训练了三个音频大语言模型——MERaLiON-2-3B\[he-etal-2025-meralion\]、Phi-4-multimodal-instruct\[abouelenin2025phi\]和Qwen2-Audio-7B-Instruct\[chu2024qwen2\]——并在分布内和分布外基准上评估，包括SEAME dev_man和dev_sge\[zeng2018seame\]。

总之，我们的贡献如下：

- • 我们识别出当前最先进的多语言音频大语言模型在英语-普通话代码转换转写中存在的三种系统性失效模式。
- • 我们提出一种DPO方法，构建将正确代码转换转写与模仿失效的替代方案进行对比的偏好对。
- • 我们在三个音频大语言模型架构上展示了一致的改进，在英语-普通话基准上实现了高达20.0%（分布外）和89.6%（分布内）的相对MER降低。

## 2 方法

我们的方法包括两个主要部分：(1) 构建偏好对，其中真实代码转换转写作为选择响应，LLM生成的缺陷转写作为拒绝响应；(2) 应用DPO将模型的转写行为对齐到正确的代码转换输出。图1提供了此流水线的概览，而表1以具体示例说明了第1节中介绍的三种失效模式。

音频输入代码转换真实转写选择 y^\\mathbf{y}^\{w\} 我住 temasek poly 那边拒绝 y^l\\mathbf{y}^\{l\} "I live temasek poly there" 偏好对 (x, y_w, y_l) DPO 训练对齐后的音频大语言模型全局翻译（80%）部分翻译（20%）✓×\\times

图1：用于代码转换对齐的DPO训练概览。真实转写作为选择响应（y^w\\mathbf{y}^\{w\}），而LLM生成拒绝响应（y^l\\mathbf{y}^\{l\}），通过全局翻译（完整）和部分翻译（仅片段）模仿失效模式。DPO训练模型偏好逐字代码转换输出。

表1：音频大语言模型在代码转换音频输入上提示转写时观察到的三种失效模式

### 2.1 用于代码转换对齐的DPO

我们应用DPO来对齐音频大语言模型在代码转换转写中的输出行为。具体来说，给定音频和提示转写的指令x\\mathbf\{x\}，一个偏好响应 y^c\\mathbf\{y\}^\{c\}（真实转写）和一个非偏好响应 y^r\\mathbf\{y\}^\{r\}（缺陷转写），DPO优化策略πθ\\pi_\\{\theta\}，以增加生成y^c\\mathbf\{y\}^\{c\}的可能性，同时降低生成y^r\\mathbf\{y\}^\{r\}的可能性，无需显式奖励建模：

L_DPO = -E\[log σ\(β log (πθ(y^c|x) / π_ref(y^c|x)) - β log (πθ(y^r|x) / π_ref(y^r|x))\)\] (1)  

其中πθ\\pi_\\{\theta\}是正在训练的主动策略，π_ref\\pi_\\{\text\{ref\}\}是参考策略（冻结的基础模型），σ\\sigma是Sigmoid函数，β\\beta控制偏好强度，y^c\\mathbf\{y\}^\{c\}（选择）是真实代码转换转写，y^r\\mathbf\{y\}^\{r\}（拒绝）是模仿观察到的失效模式的响应。

### 2.2 训练数据构建

#### 2.2.1 拒绝样本生成

为创建拒绝样本，我们使用Qwen3-32B\[yang2025qwen3\]将真实转写转换为缺陷版本。我们采用两种互补策略，均针对基于翻译的失效模式：

**全局翻译（80%）**: 此策略将所有内容从一种语言翻译成另一种语言（全部中文→英文或全部英文→中文），从而模仿翻译替代转写失效。

**部分翻译（20%）**: 与此相对，此策略仅翻译话语中的特定短片段，模仿部分语言遗漏，即孤立片段被错误地以错误语言呈现。

我们选择80/20比例是基于基线模型中观察到的全翻译错误频率更高。表2以示例说明了两种策略。尽管两种策略都侧重于基于翻译的拒绝样本，并且我们并未显式生成代表内容遗漏或幻觉（重复/虚构）的拒绝对，但我们在第4节中表明，DPO训练减少了所有三种失效模式。这可能是因为训练后模型学会了保留语言组成，从而也形成了更稳定的生成模式。

表2：拒绝样本生成策略示例

#### 2.2.2 数据来源

我们从两个互补数据集构建DPO训练对，如表3所示。

表3：DPO训练数据组成

**CS-Dialogue\[zhou2025csdialogue\]**: 该数据集包含来自200位说话者的自发中英代码转换对话，每个话语被标记为仅英文（EN）、仅中文（CN）或代码转换（MIX）。我们以两种方式构建片段：首先，对连续标记为MIX的话语进行分组，这些话语包含自然句子内代码转换；其次，拼接同一对话中的EN和CN话语，创建句子间代码转换。这两种方法共同在连贯对话上下文中融合了真实自发代码转换与受控的跨语言拼接。

**EMILIA\[he2024emilia\]**: 为补充CS-Dialogue的规模和多样性，我们通过拼接EMILIA语料库中的英文和中文音频片段来创建合成代码转换样本。每个片段通过随机采样两种语言的片段并拼接而成，大规模生成句子间代码转换音频。

## 3 实验设置

### 3.1 模型

为展示我们方法的通用性，我们实验了三个多语言音频大语言模型，这些模型已经过英文和中文的训练。表4总结了训练配置。

表4：DPO训练配置。我们根据每个架构对偏好优化强度的敏感性调整了β\\beta：较低的β\\beta允许更强的更新，而较高的β\\beta产生更保守的变化。所有超参数通过在训练数据保留验证集上的调优来选择。

**MERaLiON-2-3B\[he-etal-2025-meralion\]** 专为东南亚多语言语音设计，并在监督微调阶段包含了大量代码转换数据。

**Phi-4-multimodal-instruct\[abouelenin2025phi\]** 是一个通用多模态模型，具备强大的多语言能力，包括英文和中文。

**Qwen2-Audio-7B-Instruct\[chu2024qwen2\]** 是一个基础音频大语言模型，在多个音频基准上达到最先进水平。对于此模型，我们应用秩为256的LoRA适配，针对所有注意力和MLP模块，因为初步实验使用全微调并在多个超参数配置下始终产生退化的输出，包含重复标记和严重幻觉。因此，使用LoRA保持了更稳定的生成行为。

所有三个模型均在8块H100 GPU上训练一个epoch。

### 3.2 提示多样性

音频大语言模型需要音频输入和文本提示才能执行转写。为防止训练期间过拟合到单个提示模板，我们使用20个英文提示和20个中文提示，均要求转写但措辞不同。示例包括："Please transcribe the speech in this audio file."、"Can you transcribe this audio for me?"、"请帮我转写这段音频。"以及"这段音频里在说什么？"训练期间，从该池中随机采样提示；评估时，我们使用固定提示："Please transcribe this speech."，这是一个常见提示且不在训练池中。

### 3.3 评估基准

我们在四个基准上进行评估（表5），包括分布内和分布外测试集，以评估泛化能力。

表5：英语-普通话代码转换ASR评估基准

**SEAME\[lyu10_interspeech\]** 是一个标准的中英代码转换语料库，收集自新加坡和马来西亚的会话语音。我们评估其dev_man和dev_sge分割\[zeng2018seame\]（分别有2,610和3,222条话语），作为分布外测试集，因为训练集中未出现SEAME数据。

**EMILIA-test** 和 **CS-Dialogue-test** 则是训练和验证数据源中保留的部分，因此代表分布内评估。

### 3.4 评估指标

我们使用混合错误率（MER），这是代码转换ASR评估的标准指标。MER对中文文本采用字符级分词，对英文文本采用词级分词，尊重两种语言的自然语言结构。为确保准确的MER计算，所有文本在评估前转为小写并去除标点符号。此外，我们应用模型特定的输出规范化。例如，Qwen2-Audio-7B-Instruct通常输出"此音频的原始内容为：[转写]"。我们会过滤此类模式以提取仅转写内容，确保公平比较。MER越低表示性能越好。

## 4 结果

### 4.1 定量分析

面向中英文混合语音识别的音频大语言模型直接偏好优化

相似文章

用于鲁棒代码切换语音识别的基于LLM生成的近失对比训练

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

面向聊天机器人微调的直接偏好优化：一项实证研究

通过偏好对齐优化增强多语言反事实生成

超越聊天机器人的直接偏好优化

提交意见反馈