BayLing-Duplex: 单一自回归大语言模型实现原生全双工语音对话

arXiv cs.CL 论文

摘要

BayLing-Duplex是一种原生全双工语音语言模型,使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断,实现了高成功率,并相比先前模型提升了回复质量。

arXiv:2606.14528v1 公告类型: 新 摘要:实时全双工语音交互是下一代语音聊天机器人的关键特性,允许模型同时听和说,并处理重叠、犹豫和抢话等自然现象。现有的语音语言模型(如LLaMA-Omni和GLM-4-Voice)仍然是轮询式,且依赖外部语音活动检测模块来标记用户发言结束,这从根本上限制了它们的交互能力。本文提出BayLing-Duplex,一种原生全双工语音语言模型,其中单一自回归大语言模型自行决定何时听、何时说、何时停止,无需辅助的轮流模块。该设计仅在标准词表中添加少量特殊标记,因此可跨大语言模型迁移,并复用现有训练和服务架构,无需任何结构适配。从公开的GLM-4-Voice检查点出发,仅使用40万个全双工样本进行微调,再经过轻量级DPO阶段,BayLing-Duplex在InstructS2S-Eval上达到92%的轮流成功率与100%的打断成功率,同时将Moshi的语音回复得分从2.17提升至3.39。在Llama Questions、Web Questions和Alpaca-Eval上,BayLing-Duplex也达到或超越了其轮询式对应版本,表明同时听和说的建模并不会牺牲回复质量。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:58

# 使用单一自回归大语言模型实现原生全双工语音对话
来源:https://arxiv.org/html/2606.14528
房庆凯¹ᶻ³, 郭寿涛¹ᶻ³, 冯洋¹ᶻ³
¹中国科学院计算技术研究所智能信息处理重点实验室 (ICT/CAS)
²中国科学院人工智能安全重点实验室
³中国科学院大学,北京,中国
\{fangqingkai21b,guoshoutao22z,fengyang\}@ict\.ac\.cn

###### 摘要

实时、全双工的语音交互是下一代语音聊天机器人的关键特性,允许模型同时进行听和说,并处理诸如话语重叠、犹豫和打断等自然现象。现有的语音语言模型(SpeechLMs),如LLaMA-Omni(Fang et al., 2025a (https://arxiv.org/html/2606.14528#bib.bib16))和GLM-4-Voice(Zeng et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib2)),仍然基于轮次,并依赖外部语音活动检测(VAD)模块来标记用户轮次的结束,这从根本上限制了它们的交互能力。本文中,我们提出BayLing-Duplex,一种原生全双工SpeechLM,其中单个自回归大语言模型决定何时听、何时说、何时停止,无需辅助的轮次管理模块。该设计仅在标准词汇表中添加少量特殊标记,因此可迁移到各种大语言模型,并复用现有的训练和服务框架,无需进行架构适配。从公开的GLM-4-Voice检查点出发,仅使用40万个全双工样本进行微调,再进行轻量级的DPO阶段,BayLing-Duplex在InstructS2S-Eval上达到了92%的轮次接管成功率和100%的打断成功率,同时将语音响应得分从Moshi(Défossez et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib1))的2.17提升至3.39。在Llama Questions、Web Questions和Alpaca-Eval上,BayLing-Duplex也达到或超越了其基于轮次的同类模型,表明同时听和说的建模并未牺牲响应质量。¹¹代码和模型可在 https://github.com/BayLing-Models/BayLing-Duplex 获取。

BayLing-Duplex:使用单一自回归大语言模型实现原生全双工语音对话

房庆凯¹ᶻ³, 郭寿涛¹ᶻ³, 冯洋¹ᶻ³††感谢:通讯作者:冯洋。
¹中国科学院计算技术研究所智能信息处理重点实验室 (ICT/CAS)
²中国科学院人工智能安全重点实验室
³中国科学院大学,北京,中国
\{fangqingkai21b,guoshoutao22z,fengyang\}@ict\.ac\.cn

## 1 引言

语音作为人机交互的关键接口,与文本相比可以提升用户体验。近年来,随着大语言模型(LLMs)的快速发展,构建智能语音聊天机器人引起了学术界和工业界的广泛关注。GPT-4o(OpenAI, 2024 (https://arxiv.org/html/2606.14528#bib.bib14))实现了实时、智能、自然的语音交互,标志着朝着更自然人机交互迈出了一步。

传统方法是自动语音识别(ASR)、大语言模型和文本到语音(TTS)合成的级联流水线。虽然直接,但级联设计会在各阶段累积错误,存在高响应延迟,并丢弃输入语音中的副语言信息。为了解决这些限制,端到端语音语言模型(SpeechLMs)受到了关注,它们使用单个统一模型处理语音输入和输出。可以分为两类:**原生**SpeechLMs,将语音离散化为标记并扩展大语言模型词汇表(Zhang et al., 2023 (https://arxiv.org/html/2606.14528#bib.bib35); Zeng et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib2); Défossez et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib1));以及**模块化**SpeechLMs,在大语言模型周围集成语音编码器和语音解码器(Fang et al., 2025a (https://arxiv.org/html/2606.14528#bib.bib16),b (https://arxiv.org/html/2606.14528#bib.bib17); Wang et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib25))。尽管架构不同,这两类模型都主要假设**基于轮次**的交互:模型消费一个分段的用户语音,再生成一个响应。

因此,部署需要一个前端的语音活动检测(VAD)模块来标记用户轮次的结束。基于轮次的假设有两个固有限制。首先,系统行为受到VAD精度的限制:误报会在用户说话中途切断,漏报会延迟响应,因为声学VAD无法获取对话语义。其次,基于轮次的抽象丢弃了真实对话中普遍存在的交互模式,包括不应被误解为轮次结束的句内停顿、应抢占当前响应的用户打断,以及不应触发完整回复的简短回馈。将这些决策外包给一个小型前端模块,给系统的交互能力设置了硬上限。**全双工**SpeechLMs通过连续听和说,内部决定何时说话来解决这些问题(Nguyen et al., 2023 (https://arxiv.org/html/2606.14528#bib.bib15); Défossez et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib1); Zhang et al., 2024a (https://arxiv.org/html/2606.14528#bib.bib20))。然而,原生全双工训练通常需要数百万小时的预训练和数万小时的配对全双工对话数据(Défossez et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib1)),这超出了大多数学术团队的能力范围。本文中,我们探索一种替代方案:通过一个小型、结构化的微调方案,将强大的基于轮次的SpeechLM转换为有竞争力的全双工模型。这个转换并非易事,因为模型必须在发出自身响应的同时,消费用户正在输入的语音,并在与语音标记相同的时间尺度上做出每个轮次接管决策。

本文中,我们提出BayLing-Duplex,一种原生全双工SpeechLM,其中单个自回归大语言模型通过多通道交错序列同时处理用户语音理解、对话状态决策和助手语音生成(图1 (https://arxiv.org/html/2606.14528#S2.F1))。BayLing-Duplex以GLM-4-Voice(Zeng et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib2))为骨干,集成了语音分词器、大语言模型和语音解码器;我们在GLM-4-Voice骨干之上没有引入新模块或辅助头;唯一添加的是四个共享标准词汇表的特殊对话状态标记。因此,该设计可迁移到任何自回归大语言模型,并在现成的大语言模型训练和服务框架上运行,无需任何架构适配。三个流——用户语音、助手文本和助手语音——以相同帧率分块,并按块交错排列,文本通道中的四个对话状态标记编码了静默、回复开始、文本完成和语音完成。通过这种布局,每个轮次接管和打断决策都简化为GLM-4-Voice标准词汇表上的普通下一词预测。我们从公开发布的GLM-4-Voice检查点开始,在40万个全双工样本上微调,然后进行轻量级的直接偏好优化(DPO)(Rafailov et al., 2023 (https://arxiv.org/html/2606.14528#bib.bib8))阶段,针对轮次接管和打断时机。实验结果表明,BayLing-Duplex在InstructS2S-Eval上达到了92%的轮次接管成功率和100%的打断成功率,同时将语音响应得分从Moshi(Défossez et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib1))的2.17提升至3.39。在全双工口语问答上,BayLing-Duplex在Llama Questions和Web Questions上分别达到46.0%/18.1%的准确率,显著超过Moshi的21.0%/9.2%,并且在三个标准口语基准上与基于轮次的同型号相当或更强。

## 2 BayLing-Duplex

参看标题图1: BayLing-Duplex中的多通道交错序列。用户语音、助手文本和助手语音通道按固定的N:M:N比例逐块交错;这里为了清晰展示,取N=M=2(实际中我们使用N=10, M=5)。文本通道嵌入了对话状态标记\[SILENCE\](\[S\])、\[ASSISTANT\](\[A\])、\[PAD\](\[P\])和\[EPAD\](\[E\])。图中展示的对话从用户问“Hi, what time is it?”开始;助手在2.0秒处接管,说“The time is...”,在3.0秒处被用户打断“Wait, Beijing Time!”,然后在4.5秒处重新开始“9PM”。轮次接管、被打断和重新开始,全部表现为标准大语言模型词汇表上的普通下一词预测。在本节中,我们介绍BayLing-Duplex的模型架构。如图1 (https://arxiv.org/html/2606.14528#S2.F1)所示,我们使用GLM-4-Voice(Zeng et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib2))作为骨干,它集成了语音分词器、大语言模型和语音解码器。语音分词器是一个修改后的Whisper-large-v3(Radford et al., 2023 (https://arxiv.org/html/2606.14528#bib.bib3))编码器,带一个向量量化器,将16 kHz的波形转换为频率fs=12.5 Hz(每80 ms一个标记)的离散标记;大语言模型是一个9B参数的仅解码器Transformer,从GLM-4-9B(GLM et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib7))初始化,并在词汇表中添加了语音标记;语音解码器是一个流匹配(Lipman et al., 2023 (https://arxiv.org/html/2606.14528#bib.bib5))模型后接HiFi-GAN(Kong et al., 2020 (https://arxiv.org/html/2606.14528#bib.bib6))声码器,两者均改编自CosyVoice(Du et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib4))。BayLing-Duplex的核心创新是多通道交错序列布局,它在不引入任何新模块或辅助头的情况下实现了全双工行为。

### 2.1 多通道交错序列

全双工对话由用户和助手的一系列话语组成,可能包含重叠以支持打断。我们将这个对话组织成单一的多通道交错序列,如下所述。

#### 双通道音频分词

我们合成两个等长的单声道音频轨道:用户轨道填充用户话语(其他位置静默),助手轨道填充助手话语。两者均由语音分词器分词,产生对齐的序列X=(x1,...,xTs)和Y=(y1,...,yTs)。静默由同一个编码器分词,而不是替换为特殊标记,从而保持声学连续性。对于每个助手话语k,wk表示其文本内容,sk和ek分别表示其开始和结束时间(秒)。

#### 块结构

序列按B个块组织,每个块包含N个用户语音标记、M个文本标记和N个助手语音标记:

块b:用户语音⏟xbN+1:(b+1)N  文本⏟zbM+1:(b+1)M  助手语音⏟ybN+1:(b+1)N。 (1)

文本通道Z=(z1,...,zTz)的长度为Tz = Ts * M / N。模型被训练为在给定过去序列的情况下自回归地预测文本和助手语音标记。

#### 块大小

块大小N控制着基本权衡。N太小,每个块内可用的文本槽太少,无法表达甚至一个短子词,导致轮次接管抖动和响应时机不稳定;N太大,最小响应延迟会超过人类可接受的阈值,因为模型只能以块为单位进行响应(Défossez et al., 2024 (https://arxiv.org/html/2606.14528#bib.bib1))。本文中我们选择N=10, M=5,给出Δt=0.8秒,平均每秒6.25个文本标记,接近GLM-4-Voice在基于轮次解码时的自然英语语速。N=10匹配了典型英语的最小可感知延迟阈值,同时保持Δt足够小以实现流畅的轮次接管;我们将N的系统性扫描留作未来工作。

#### 因果偏移

在块b处,模型已经观察到了直到时间(b+1)Δt的用户标记,因此它最早可以发出的助手音频对应于同一时刻。因此,在训练期间,我们将助手文本和语音通道相对于用户通道偏移一个块:块b处的文本和助手语音标记对应于实际时间窗口[(b+1)Δt, (b+2)Δt)。推理时,输出播放时加上相同的偏移量Δt。

#### 文本通道构建

文本通道Z充当内部独白:它从不到达用户,但会调节同一块内的助手语音标记。Z初始化为全\[SILENCE\],然后被每个助手话语k覆盖。其在文本通道中的边界索引为:

jk_ast = floor((sk - Δt)fs) * M/N - 1, (2)
jk_epad = ceil((ek - Δt)fs) * M/N, (3)

文本内容wk填充从jk_ast + 1开始的位置。文本通道嵌入了四个对话状态标记,编码对话的高级状态:

- \[SILENCE\]:助手应保持静默;
- \[ASSISTANT\]:助手回复开始;
- \[PAD\]:文本内容已写入,但对应的语音仍在发出;
- \[EPAD\]:当前回复的文本和语音均已完成。

当文本通道发出\[SILENCE\]时,助手语音标记对应静默;当它发出\[ASSISTANT\]后跟内容时,助手语音标记编码对应的语音。通过这种布局,所有对话状态决策简化为GLM-4-Voice标准词汇表上的下一词预测,无需额外的分类头、注意力掩码技巧或状态机。

### 2.2 训练

我们从GLM-4-Voice公开发布的检查点开始,该检查点已经在数百万小时的语音-文本数据上预训练,并在基于轮次的对话上进行了监督微调。我们进一步应用了两个阶段。

#### 阶段I:监督微调

用户语音通道X仅作为条件,不贡献损失;交叉熵仅在文本通道和助手语音位置计算,监督集为:

V = {i: si ∈ Z ∪ Y}, ℓi = -log πθ(si | s<i)。 (4)

\[SILENCE\]在典型序列中占主导,而\[ASSISTANT\]每个轮次只出现一次,因此我们使用每个位置的权重ωi来聚合位置损失,以防止罕见的角色标记被淹没:

LSFT = (∑i∈V ωi ℓi) / (∑i∈V ωi)。

相似文章

释放全双工语音模型中LLM的能力

Hugging Face Daily Papers

提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,允许单个自回归LLM持续监听、书写可见文本并实时说话,实现无需架构修改的全双工语音交互。

DuDi:基于跨语言词语化器的双信号蒸馏方法

arXiv cs.CL

DuDi 是一个双信号多语言蒸馏框架,结合序列级与词元级信号以及跨语言词语化器,旨在提升小型语言模型在东南亚语言上的表现。在 SEA-HELM 上的实验表明,DuDi 在多个模型系列和规模设置下均能持续超越具有竞争力的蒸馏基线方法。

Omni-DuplexEval: 评估实时双工全模态交互

Hugging Face Daily Papers

本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。