HybridCodec: 面向高效语音语言模型的离散与连续表示建模

arXiv cs.LG 论文

摘要

提出HybridCodec,一种结合时间压缩离散令牌与连续残差的新颖框架,旨在改进语音语言模型中说话人特征的保留,在保持质量的同时减少自回归步骤。

arXiv:2606.27627v1 Announce Type: new Abstract: 离散音频表示在构建多模态文本-音频系统以及将音频能力集成到大语言模型(LLMs)中变得越来越流行。然而,大量研究报告指出,由于离散化过程中的信息损失,各种下游任务的性能有所下降。为了解决这个问题,我们提出了一种新颖方法,结合了时间压缩的离散令牌与降维的连续残差。我们的框架由混合离散-连续焦点调制编解码器与混合Transformer组成。该架构在离散域中执行自回归推理,并结合非自回归预测和连续残差上采样。实验结果表明,与纯离散方法相比,我们的方法显著提高了说话人特征的保留,同时减少了所需的自回归步骤数量。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:24

# 离散与连续表示建模用于高效语音语言模型
来源:https://arxiv.org/html/2606.27627
Ploujnikov Verdini Sadok Ravanelli

FrancescoSamirMirco1Mila,魁北克人工智能研究所,加拿大;2康考迪亚大学,加拿大;3罗马大学,意大利;4Inria,格勒诺布尔阿尔卑斯大学 CNRS,LJK,法国artem\.ploujnikov@mail\.concordia\.ca, francesco\.verdini@uniroma1\.it, samir\.sadok@inria\.fr, mirco\.ravanelli@mail\.concordia\.ca (https://arxiv.org/html/2606.27627v1/mailto:[email protected],%[email protected],%20)

###### 摘要

离散音频表示在构建多模态文本-音频系统以及将音频能力集成到大语言模型(LLMs)中变得越来越流行。然而,大量研究指出,由于离散化过程中的信息丢失,各种下游任务的性能会下降。为解决此问题,我们提出了一种新方法,将时间压缩的离散令牌与降维的连续残差相结合。我们的框架包括一个混合离散连续焦点调制编解码器和一个混合 Transformer。该架构在离散域中执行自回归推理,并辅以非自回归预测和连续残差上采样。实验结果表明,与纯离散方法相比,我们的方法显著改善了对说话人特征的保留,同时减少了所需的自回归步数。

###### 关键词:

语音识别、语音合成、文本转语音、音频表示、神经音频编解码器。

## 1 引言

人类思维通过离散类别与连续谱之间的复杂相互作用来处理世界[discrete-continuous-brain,attractor-integrator]。人类语言完美体现了这种二元性。它将清晰的*离散*层级(由字母或语素符号系统记录的构成单词和句子的音素序列)施加于丰富的*连续*特征调制之上,如音高、语调、情感和韵律。

Transformer 架构[transformer]的出现确立了离散令牌序列作为现代人工智能*事实上的*媒介。这一范式推动了自回归生成和大语言模型(LLMs)[gpt,llama,gemini]的发展,随后被适配到音频领域。像向量量化变分自编码器(VQ-VAE)[vqvae]这样的开创性架构证明,连续信息可以有效压缩到离散潜空间中,这激发了神经音频编解码器(NACs)[dates,kyutai2024moshi,xin2024bigcodec,dac]的发展。从根本上说,NAC 包含一个编码器、一个向量量化器和一个解码器,将连续音频映射为低比特率的离散令牌,再重建回波形。与依赖算法信号处理和听觉心理声学的传统编解码器(如 MP3)不同,NAC 学习一个有限或可变的、由数据驱动的*词汇表*来表示声音。这使得它们能够在保持丰富语义和声学特征的同时实现极高的压缩率,从而有效地弥合了原始信号处理与自然语言建模之间的鸿沟,使 LLM 能够像处理文本一样自然地处理语音。诸如 AudioLM(语义与声学建模)[borsos2023audiolm]、VALL-E(零样本语音克隆)[valle]以及 SpeechGPT(跨模态语音文本 LLM)[speechgpt]等模型成功利用这些离散音频令牌,在零样本语音合成和端到端多模态对话方面取得了重大突破。

尽管有这些优势,完全离散的表示会引入固有的量化损失。正如 benchmarks(例如,SUPERB[superb]、DASB[dasb-benchmark])以及近期的比较性综述[dates,speechdt,kammoun2025modeling]所证明的那样,存在一个基本的权衡:虽然离散令牌有助于稳定收敛和与 LLM 的无缝集成,但量化过程不可逆地丢弃了细粒度的声学细节。从根本上说,这种损失源于经典的率失真权衡[cover1999elements,shannon1959coding]。在低比特率下,NAC 优先保证语义内容的可懂度,而非声学丰富性,缺乏编码微韵律和说话人音色的带宽[dates]。为缓解这一限制,我们提出了一种新颖的*混合*范式,其中编解码器通过高帧率连续残差支持可选的细化,而语言模型可以从有损、低分辨率的近似开始,然后计算一步连续细化,大大减少了推理所需的前向传播总数。

我们的主要贡献如下:(1)HybridCodec,一种新颖的 NAC 框架,扩展了 FocalCodec[focalcodec,focalcodec-streaming],它联合提取时间缩减的离散令牌,并将剩余信息建模为降维的连续残差;(2)HybridLM,一种仅解码器 Transformer[transformer],专为处理这些混合表示而设计。它将高效的、低帧率离散令牌自回归(AR)预测,与单步非自回归(NAR)预测及连续残差上采样统一起来;(3)一个统一框架,利用 HybridLM 架构有效处理主要的下游语音任务,包括 ASR 和 TTS,所有任务都在一个框架内完成。

参考图注 图 1:所提出架构概览:HybridCodec(左)提供双路径离散-连续压缩,HybridLM(右)通过交织的自回归和非自回归解码统一这些表示。这种混合范式恢复了在离散 LM 中丢失的细粒度信息。在 LibriTTS[libritts]数据集上的实验结果表明,我们的方法显著优于离散基线,尤其是在像 6.25 Hz 这样极低的帧率下,同时大幅减少了 AR 步数。

## 2 相关工作

近期的工作通过进一步针对具体任务的分析和各种适配,来应对离散-连续性能差距。ASR 领域的研究[discrete-continuous-asr]证实了这一差距,表明这种信息瓶颈通过剥离信号中的韵律细微差别和说话人身份,直接降低了下游性能。为克服这一限制,近期文献探索了通过扩散机制、连续自回归建模或掩码建模[clear-tts,spear-tts,sadok2026residual]来重新整合连续特征。然而,这些方法仍然高度依赖于具体任务,牺牲了离散 LLM 所提供的统一、可泛化的框架。这限制了它们在单个模型中处理多样化语音应用(如生成和识别)的能力。离散-连续混合已经在其他领域成功探索,如强化学习和机器人学[hyar,discrete-continuous-em,discrete-continuous-robot]、文本扩散[discrete-continuous-diffusion]等。这引发了一个关键问题:是否可能设计一个统一的语言模型,既能利用离散令牌的效率,又能恢复连续语音丰富的声学细微差别?据我们所知,我们的方法是首个在单个 Transformer 架构中统一离散和连续精化的方法。通过利用这两个领域,我们在超低帧率下实现了高保真语音合成。

## 3 模型架构

### 3.1 预备知识:FocalCodec 架构

FocalCodec[focalcodec]采用了一种非对称的 VQ-VAE 架构,核心是压缩机-量化器-解压机瓶颈。它使用预训练 WavLM 的前六层作为基础编码器,联合提取声学和语义特征。其核心流程依赖于*焦点调制*:一个*焦点编码器(FE)*(压缩机)通过聚合多尺度全局和局部上下文(记作 `x_base`),将这些连续特征线性时间内下采样为一个紧凑的潜空间。然后,使用二进制球面量化(BSQ)[zhao2024image]将表示离散化,这是一种无查找表的方法,能够强制有界量化误差并最大化码本利用率。接着,一个*焦点解码器(FD)*(解压机)镜像下采样过程,对离散令牌进行上采样,并显式重建原始的连续 WavLM 表示。最后,一个轻量级的 Vocos 解码器[vocos]直接从这些恢复的连续特征合成音频波形。

### 3.2 HybridCodec:提取混合表示

HybridCodec,如图 1 (https://arxiv.org/html/2606.27627#S1.F1)(左)所示,通过添加一条辅助路径扩展了 FocalCodec[focalcodec]。这条由额外焦点编码器和解码器组成的分支,捕捉并压缩离散化过程中丢失的连续残差信息。

**编码:双路径特征提取。** 编码过程将基础表示 `x_base ∈ ℝ^(T×d)` 映射到一个双离散-连续潜空间。首先,*离散路径*(图 1 (https://arxiv.org/html/2606.27627#S1.F1) 中红色高亮)提取量化索引 `z_q = FQ_θ(x_base)`。从这些索引中,我们得到量化近似 `x̂_quant = BSQ_θ^(-1)(z_q)`。其次,*连续路径*(图 1 (https://arxiv.org/html/2606.27627#S1.F1) 中绿色高亮)通过计算残差误差 `x_res = x_base - x̂_quant` 来捕捉量化丢失的细粒度声学细节。这个连续残差由一个专用的残差焦点编码器 `FE_res` 压缩,该编码器应用时间下采样步长 `r`,得到降维的瓶颈表示 `x̄_res = FE_res(x_res)`。为控制时间分辨率,我们调整 `FE_res` 的步长:`(1,1,1)` 对应 50 Hz,`(2,1,1)` 对应 25 Hz,`(2,2,1)` 对应 12.5 Hz,`(2,2,2)` 对应 6.25 Hz。

**解码:特征融合与重建。** 解码过程完美镜像编码阶段,以重建完整的混合信号。首先,*离散路径*通过逆量化器将索引 `z_q` 投影回连续嵌入空间:`x̂_quant = FQ_θ^(-1)(z_q)`。其次,*连续路径*将瓶颈残差 `x̄_res` 通过残差焦点解码器 `FD_res`。该模块将表示上采样因子 `r`,以恢复原始时间分辨率:`x̂_res = FD_res(x̄_res) ∈ ℝ^(T×d)`。最后,在将表示传递给 Vocos 解码器之前,通过将两条流相加来合成完整表示:`x̂_base = x̂_quant + x̂_res`。

表 1:基线编解码器与我们的混合编解码器之间的重合成性能。`↑/↓` 表示越高/越低越好。**粗体**和第二表示最佳和第二佳结果,分别。NAC帧率UTMOS(↑)dWER(↓)SpkSim(↑)Code Usage(↑)Norm Entropy(↑)Reference—4.090.00100.0——DAC[kumar2023high]50 Hz1.2920.0489.2100.091.7Mimi[kyutai2024moshi]12.5 Hz3.295.7396.095.691.8BigCodec[xin2024bigcodec]50 Hz4.112.5598.5100.098.6FocalCodec[focalcodec]12.5 Hz4.227.9493.998.297.4FocalCodec[focalcodec]25 Hz4.143.3096.399.898.4HybridCodec50 Hz4.071.4797.299.996.3HybridCodec25 Hz4.071.4896.798.896.8HybridCodec12.5 Hz4.091.4796.297.196.7HybridCodec6.25 Hz3.981.5097.197.498.2
### 3.3 HybridLM 架构

HybridLM 是一个 GPT 风格[gpt]的仅解码器 Transformer,如图 1 (https://arxiv.org/html/2606.27627#S1.F1)(右)所示,专为处理 HybridCodec(第 3.2 节 (https://arxiv.org/html/2606.27627#S3.SS2))的双重表示而定制。它在单个网络内统一了自回归(AR)和非自回归(NAR)解码:离散令牌驱动 AR 阶段以建立语义结构,而连续残差在 NAR 通过中预测以恢复高保真声学细节。与 VALL-E[valle]不同,我们的模型支持不同时间尺度上的混合离散-连续提示。该模型旨在充分利用 HybridCodec 特征,包括语义索引(在 AR 模式下)和连续残差(单次 NAR)。

**通过 AdaLN 实现统一的 AR 和 NAR 建模。** 如果依赖简单的前缀条件化,在较深层中结合 AR 分类(令牌生成)和 NAR 回归(残差预测)存在目标干扰的风险。为缓解此问题,我们采用自适应层归一化(AdaLN)来复用两种操作模式。通过在每一层注入特定于模式的嵌入 `i_mode ∈ {AR, NAR}`,AdaLN 提供了深度条件化,动态调整内部表示。这在一个共享骨干网络内有效地创建了两个专门化、无干扰的子模型[adaspeech,valle]。我们训练了 12 层、4 个注意力头、`d_model = d_emb = 512` 以及 `d_ffn = 2048`(前馈层的内部维度)的模型。

给定解码模式标识符 `i_mode`,AdaLN 调制参数计算如下:

`e = Emb(i_mode)`(模式嵌入)
`γ = W_γ e + b_γ`(缩放向量)
`β = W_β e + b_β`(偏置向量)
`z̄ = LayerNorm(z)`(标准 LN)
`z_cond = γ ⊙ z̄ + β`(仿射变换)

其中 `Emb(·)` 是一个学习到的嵌入层,将离散模式标识符映射到连续向量 `e`;`W_γ` 和 `W_β` 是可学习的权重矩阵;`b_γ` 和 `b_β` 是偏置项;`z` 表示潜变量(通常是前一层或注意力/FFN 的输出);`⊙` 表示逐元素乘积。

**说话人嵌入。** 为了将生成条件化于特定声音,我们注入使用 SpeechBrain[speechbrain_v1]工具包提取的预训练 ECAPA-TDNN[ecapa-tdnn]说话人嵌入。这些嵌入通过简单的线性投影并添加到源序列中的所有令牌嵌入中来集成。

**训练过程。** 离散路径和连续路径

相似文章

连续音频语言模型

Papers with Code Trending

本文介绍了连续音频语言模型(CALM),该模型使用连续帧而非离散token生成音频,以提升语音和音乐生成的保真度并降低计算成本。

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers

# 论文页面 - 分层编解码扩散模型用于视频到语音生成 来源:[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构,从视频中生成语音,通过粗到细的双尺度归一化条件,实现更优的音视对齐。视频到语音(VTS)任务旨在无声视频中合成语音,而无需任何音频信号。

面向大型音频语言模型的连续音频思考

arXiv cs.AI

该论文引入了连续音频思考(CoAT)框架,为大型音频语言模型配备了一个连续的潜在工作空间,用于在生成文本响应之前组织声学信息,从而在音频推理、理解和转录任务中提升性能,且不增加额外的解码成本。

AdaCodec:面向视频多模态大模型的预测性视觉编码

Hugging Face Daily Papers

AdaCodec 通过仅在场景预测失败时传输完整视觉标记,否则使用紧凑的帧间变化描述,从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下,它优于逐帧 RGB 基线,并且在使用显著更少标记的情况下取得更好或相当的结果,将首令牌延迟从 9.26 秒降至 1.62 秒。