VITA-QinYu:用于角色扮演和唱歌的表现力口语语言模型

arXiv cs.CL 模型

摘要

VITA-QinYu 是一个具有表现力的端到端口语语言模型,支持角色扮演和唱歌功能。该模型在 15.8 万小时的数据集上进行训练,在表现力和对话准确性方面均优于同类模型。

arXiv:2605.06765v1 公告类型:新发布 摘要:人类语音除了语言内容外,还传达着表现力,包括个性、情绪或表演元素,例如安慰的语气或哼唱歌曲,我们将这些形式化定义为角色扮演和唱歌。我们提出了 VITA-QinYu,这是第一个具有表现力的端到端(E2E)口语语言模型(SLM),它超越了自然对话,支持角色扮演和唱歌生成。VITA-QinYu 采用混合语音-文本范式,通过多码本音频令牌扩展交织的文本-音频建模,这一设计在保持模态间清晰分离以避免干扰的同时,实现了更丰富的副语言表示。我们进一步开发了一个综合数据生成管道,以合成总计 15.8 万小时的用于训练的自然对话、角色扮演和唱歌数据。VITA-QinYu 表现出卓越的表现力,在客观角色扮演基准测试中比同类 SLM 高出 7 个百分点,在唱歌的 5 分制 MOS 量表上超越同类模型 0.13 分。同时,它在对话准确性和流畅度方面也达到了最先进水平,在 C3 和 URO 基准测试中分别超过先前 SLM 1.38 和 4.98 个百分点。我们开源了代码和模型,并提供了一个易于使用的演示,全面支持流式处理和全双工交互。
查看原文
查看缓存全文

缓存时间: 2026/05/11 06:39

# VITA-QinYu:用于角色扮演和歌唱的表达性语音语言模型
来源:https://arxiv.org/html/2605.06765
###### 摘要

人类语音传达的表达力超越了语言内容,包括个性、情绪或表演元素,例如安慰的语气或哼唱歌曲,我们将这些形式化定义为角色扮演和歌唱。我们提出 VITA-QinYu,这是*首个*超越自然对话、同时支持角色扮演和歌唱生成的端到端(E2E)表达性语音语言模型(SLM)。VITA-QinYu 采用混合语音-文本范式,通过多码本音频令牌扩展交错式文本-音频建模,这种设计在保持模态间清晰分离以避免干扰的同时,实现了更丰富的副语言表示。我们进一步开发了一个全面的数据生成管道,合成了总计 15.8 小时的用于训练的自然对话、角色扮演和歌唱数据。VITA-QinYu 展示了卓越的表达力,在客观角色扮演基准上比同行 SLM 高出 77 个百分点,在歌唱方面以 0.13 分的优势在 5 分制平均意见分数(MOS)上超越同行模型。同时,它达到了最先进的对话准确性和流畅度,在 C3 和 URO 基准上分别比先前的 SLM 高出 1.38 和 4.98 个百分点。我们开源了代码和模型,并提供了一个易于使用的演示,全面支持流式和全双工交互。

## 1 引言

端到端(E2E)语音语言模型(SLMs)在流畅且信息丰富的对话能力方面取得了显著进展,其在理解、推理和指令遵循方面的表现接近纯文本模型(Chen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib48); Zhang 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib29))。然而,人类语音携带丰富的副语言线索——如韵律、语调、节奏和风格——这些线索传达了个性和情感。例如,用户在特定情况下可能需要安慰性的话语或轻柔的哼唱。我们将这些方面形式化定义为角色扮演和歌唱,视其为语音表达力的关键形式(Huang 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib14)),这在 E2E SLMs 中仍探索不足。

现有的表达性语音系统大多是特定任务的,不支持通用对话助手。角色扮演系统(Li 等人, 2023 (https://arxiv.org/html/2605.06765#bib.bib26); Wang 等人, 2024c (https://arxiv.org/html/2605.06765#bib.bib25); Zhang 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib24))通常采用级联流水线,结合基于 LLM 的文本生成与外部语音合成。尽管具有模块化特性,但由于其多组件设计,这些方法引入了显著的工程复杂性。传统的歌唱语音合成(SVS)方法依赖于歌词和乐谱(Pan 等人, 2026 (https://arxiv.org/html/2605.06765#bib.bib23)),限制了其在现实交互中的应用,因为在现实交互中用户仅提供歌曲或歌手名称。这促使我们研究更通用的设置,即从最小化的自然语言输入生成歌唱。

表 1 (https://arxiv.org/html/2605.06765#S1.T1) 展示了近期 LLMs 和 SLMs 的比较。受这些局限性的启发,我们提出了 VITA-QinYu,这是首个支持表达性语音生成及自然对话的 E2E SLM。VITA-QinYu 采用混合语音-文本范式,通过并行多码本音频令牌建模(Xie 和 Wu, 2024 (https://arxiv.org/html/2605.06765#bib.bib43))扩展交错式建模(Zeng 等人, 2024b (https://arxiv.org/html/2605.06765#bib.bib50)),在提高副语言表达力的同时减少跨模态干扰(Nguyen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib49))。作为一个原生端到端系统,它避免了级联流水线的复杂性。

为了支持表达性生成,我们构建了大规模的角色扮演和歌唱数据集。我们 2.6K 小时的角色扮演数据集涵盖 20K+ 个角色,源自带有结构化角色提取的有声书以及 LLM 生成的交互脚本,随后进行基于指令的表达性语音合成。我们还通过收集热门歌曲、使用 MIDI 引导的零样本 SVS 进行高质量人声录制,并将歌曲信息转换为自然语言指令用于对话建模,构建了一个 1.2K 小时的歌唱数据集。

表 1:现有 LLM 和 SLM 在语音模态(Speech)、自然对话(Natural Conv.)、角色扮演(Role-Play)、端到端架构(Arch.)和语音-文本建模范式(Paradigm)上的比较。“N/A”表示“不适用”。我们将角色扮演和歌唱视为迈向更广泛表达性语音生成的初步步骤。我们希望这项工作能为未来研究提供基础,并继续改进 VITA-QinYu 的这些能力。

我们的贡献总结如下:

- • 我们提出了 VITA-QinYu,这是首个具有混合文本-语音范式的 E2E SLM,在保持强大对话能力的同时支持表达性角色扮演和歌唱。
- • 我们构建了 3.8K 小时的角色扮演和歌唱数据集,以解决表达性语音建模中的空白。
- • 实验表明,VITA-QinYu 实现了强大的表达力,在角色扮演和歌唱基准上优于先前的 SLMs,同时也达到或超越了最先进的对话性能。

## 2 相关工作

语音语言模型(SLMs)
E2E SLMs 可按架构和建模范式进行分类。在架构上,它们包括原生模型和对齐模型(Chen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib48))。原生 SLMs(Défossez 等人, 2024 (https://arxiv.org/html/2605.06765#bib.bib46); Xie 和 Wu, 2024 (https://arxiv.org/html/2605.06765#bib.bib43); Zeng 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib47); Gao 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib99); Long 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib30); Zhang 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib29))使用单一的仅解码器 Transformer 进行联合文本-音频建模,但在模态差距和有限的预训练方面存在困难。对齐 SLMs(Fang 等人, 2024 (https://arxiv.org/html/2605.06765#bib.bib51); Chen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib48); Xue 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib102); b (https://arxiv.org/html/2605.06765#bib.bib103))采用“思考者-说话者”两阶段设计以保留推理能力。像 Minmo(Chen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib48))和 Qwen-Omni(Xue 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib102); b (https://arxiv.org/html/2605.06765#bib.bib103))这样的系统解耦了推理和语音生成,但依赖于单独的合成模块,通常限制了副语言表达力。

从建模角度来看,并行模型(Défossez 等人, 2024 (https://arxiv.org/html/2605.06765#bib.bib46); Xie 和 Wu, 2024 (https://arxiv.org/html/2605.06765#bib.bib43); Chen 等人, 2024b (https://arxiv.org/html/2605.06765#bib.bib53); Gao 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib99); Ding 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib105); Zhang 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib29))使用多码本音频令牌以获取更丰富的声学信息,但可能会削弱文本-语音对齐(Nguyen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib49)),而交错式模型(Zeng 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib47); Long 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib30); Li 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib104))交替使用文本和语音令牌以获得更好的语言一致性,但依赖于更简单的音频表示和用于韵律的额外解码器。像 Baichuan-Audio(Li 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib104))这样的扩展结合了两者的想法,但解码流水线更复杂。VITA-QinYu 通过用轻量级 MLP 头替换流匹配解码器简化了这一设计,促进了更统一的文本-音频建模。

音频分词器
音频分词器的架构选择决定了重建保真度、副语言表达力和推理效率之间的权衡。基于残差向量量化的解码器 Défossez 等人 (2024 (https://arxiv.org/html/2605.06765#bib.bib46)); Ye 等人 (2025 (https://arxiv.org/html/2605.06765#bib.bib131)); Wang 等人 (2025b (https://arxiv.org/html/2605.06765#bib.bib7)); Siuzdak 等人 (2024 (https://arxiv.org/html/2605.06765#bib.bib54)); Gong 等人 (2025 (https://arxiv.org/html/2605.06765#bib.bib17)) 通过多个码本表示音频。这些码本自然地捕捉丰富的副语言信息,如说话人身份和韵律。由于表示描述性很强,它对解码器的计算需求较小;简单的基于 CNN 的解码器通常足以以低延迟重建高质量音频。相比之下,像 CosyVoice2(Du 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib41))和 GLM-4-Voice(Zeng 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib47))这样的模型依赖于单码本语义令牌。虽然这些令牌在语义效率上高度压缩,但往往导致副语言细节的丢失。在初步实验中,我们发现这些分词器无法重建原始歌唱声音的旋律。

角色扮演模型
LLMs 的最新进展实现了强大的角色扮演能力(Chen 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib15)),实现了沉浸式的角色模拟。然而,大多数语音角色扮演系统仍然是级联的。例如,ChatHaruhi(Li 等人, 2023 (https://arxiv.org/html/2605.06765#bib.bib26))通过 LLM 生成角色一致的文本,并依赖外部 TTS 进行语音生成。OmniCharacter(Zhang 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib24))使用 Whisper(Radford 等人, 2023 (https://arxiv.org/html/2605.06765#bib.bib59))编码用户查询,将其与 Qwen2.5-7B-Instruct(Yang 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib40))骨干对齐以生成文本,然后使用单独的语音 LLM 和合成模块生成角色感知的语音。

歌唱语音合成模型
传统的歌唱语音合成(SVS)从歌词和乐谱生成高保真度人声(Pan 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib10)),最近的进展提高了质量和建模。VISinger(Zhang 等人, 2022b (https://arxiv.org/html/2605.06765#bib.bib12)),基于 VITS(Kim 等人, 2021 (https://arxiv.org/html/2605.06765#bib.bib11)),实现了端到端 SVS;Toksing(Wu 等人, 2024 (https://arxiv.org/html/2605.06765#bib.bib9))在量化表示上使用非自回归语言模型;HiddenSinger(Hwang 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib8))在神经编解码器上应用潜在扩散。然而,大多数 SVS 系统依赖于结构化输入(例如 MIDI),限制了其在仅提供自然语言的交互式设置中的使用。

## 3 方法

参见标题图 1:VITA-QinYu 的架构概览。对于文本输入,LLM 直接消费嵌入;对于语音输入,说话人模块提取说话人嵌入,音频编码器提取连续特征。额外的代理说话人嵌入控制响应音色。在这些信号的条件下,LLM 生成交错的文本和多码本音频令牌。音频令牌经过时间移位以提高质量,平均回模型以供下一步使用,并解码为波形。在训练期间,说话人和音频编码器被冻结,仅更新适配器和 LLM。参见标题 (a) 多轮对话。
参见标题 (b) 代理说话人。
参见标题 (c) 打断。

图 2:多轮对话、代理说话人生成和打断的逻辑。VITA-QinYu 的架构概览如图 1 (https://arxiv.org/html/2605.06765#S3.F1) 所示,由音频编码器、音频适配器、说话人嵌入模块、语言模型骨干和八个语言建模头组成。此外,文本到音色(TTT)模块集成到系统中用于角色扮演任务。以下部分详细介绍了每个组件。

骨干模型
VITA-QinYu 的骨干是基于仅解码器 Transformer 的语言模型(LM)。我们实验了 Qwen3-8B(Hu 等人, 2026 (https://arxiv.org/html/2605.06765#bib.bib113))和 Youtu-LLM-4B(Lu 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib19)),产生了两个变体:VITA-QinYu-8B 和 VITA-QinYu-4B。骨干模型处理用户的查询,无论是语音还是文本,并在混合范式中生成文本和音频响应,我们将其形式化如下。

将用户输入表示为 $X \in \mathcal{X}$,其中 $\mathcal{X}$ 是文本和语音嵌入的联合空间。将模型的文本响应和语音响应分别表示为 $Y \in \mathcal{V}$ 和 $Z \in \mathcal{U}$,其中 $\mathcal{V}$ 是文本词汇表集,$\mathcal{U}$ 是语音编解码器词汇表集。在具有 $J$ 个码本的多码本设置中,我们有 $\mathcal{U} = \cup_{j=0}^{J-1} \mathcal{U}^j$,语音令牌 $Z$ 可以是并行堆叠的多码本令牌:$Z = [Z^j]_{j=0}^{J-1}$,其中语音令牌 $Z^j \in \mathcal{U}^j$ 属于第 $j$ 个码本词汇表集 $\mathcal{U}^j$。我们以预定义的比率 $n:m$ 将文本和语音响应令牌交错成一个新的序列 $S$,如下所示:

$S = [Y_{0:n-1}, Z_{0:m-1}, Y_{n:2n-1}, Z_{m:2m-1}, \dots]$ (1)

其中文本令牌和语音令牌分别在大小为 $n$ 和 $m$ 的块中交替。一旦文本令牌被消耗完毕,剩余的语音令牌被附加到序列的末尾。将数据集表示为 $\mathcal{D} = \{ (X_i, S_i) \}_{i=1}^D$,其中 $D$ 是数据集中的样本数。数据集 $\mathcal{D}$ 上的负对数似然 $\mathcal{L}$ 可以建模为:

$\mathcal{L} = \sum_{i=1}^{D} \sum_{t=1}^{T_i} \log P(S_{i,t} \| X_i, S_{i,<t})$ (2)

其中 $T_i$ 是交错序列 $S_i$ 的长度。当 $S_t \in \mathcal{V}$ 是文本令牌时,我们计算条件对数概率的方式与传统 LLM 方法相同。当 $S_t \in \mathcal{U}$ 是堆叠的语音令牌时,对数概率使用跨 $J$ 个码本的语音令牌的平均对数概率进行建模。形式上,对数概率 $\log P(S_t \| X, S_{<t})$ 计算如下:

$$
\log P(S_t \| X_{<t}, S_{<t}) = \begin{cases} 
\log P(Y \| X, S_{<t}), & \text{如果 } S_t \text{ 是文本: } S_t = Y, \\
\frac{1}{J} \sum_{j=0}^{J-1} \log P(Z^j \| X, S_{<t}) & \text{如果 } S_t \text{ 是语音: } S_t = [Z^j]_{j=0}^{J-1},
\end{cases}
$$ (3)

其中下标 $i$ 为了清晰起见被省略。

多轮对话
我们将对话历史前置到 LLM 的输入以支持多轮交互。用户的查询,无论是文本还是语音,都原样包含在内。由于语音响应通常很长且与相应的文本响应在很大程度上冗余,我们丢弃语音并仅保留文本响

相似文章

VibeVoice 技术报告

Papers with Code Trending

VibeVoice 是微软推出的一款新模型,它利用 Next-Token Diffusion(下一令牌扩散)和一种高度高效的连续语音分词器,生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率,支持长达 90 分钟的多说话人音频生成。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。