VITA-QinYu：用于角色扮演和唱歌的表现力口语语言模型

arXiv cs.CL 2026/05/11 04:00 模型

摘要

VITA-QinYu 是一个具有表现力的端到端口语语言模型，支持角色扮演和唱歌功能。该模型在 15.8 万小时的数据集上进行训练，在表现力和对话准确性方面均优于同类模型。

arXiv:2605.06765v1 公告类型：新发布摘要：人类语音除了语言内容外，还传达着表现力，包括个性、情绪或表演元素，例如安慰的语气或哼唱歌曲，我们将这些形式化定义为角色扮演和唱歌。我们提出了 VITA-QinYu，这是第一个具有表现力的端到端（E2E）口语语言模型（SLM），它超越了自然对话，支持角色扮演和唱歌生成。VITA-QinYu 采用混合语音-文本范式，通过多码本音频令牌扩展交织的文本-音频建模，这一设计在保持模态间清晰分离以避免干扰的同时，实现了更丰富的副语言表示。我们进一步开发了一个综合数据生成管道，以合成总计 15.8 万小时的用于训练的自然对话、角色扮演和唱歌数据。VITA-QinYu 表现出卓越的表现力，在客观角色扮演基准测试中比同类 SLM 高出 7 个百分点，在唱歌的 5 分制 MOS 量表上超越同类模型 0.13 分。同时，它在对话准确性和流畅度方面也达到了最先进水平，在 C3 和 URO 基准测试中分别超过先前 SLM 1.38 和 4.98 个百分点。我们开源了代码和模型，并提供了一个易于使用的演示，全面支持流式处理和全双工交互。

查看原文

查看缓存全文

缓存时间: 2026/05/11 06:39

# VITA-QinYu：用于角色扮演和歌唱的表达性语音语言模型
来源：https://arxiv.org/html/2605.06765
###### 摘要

人类语音传达的表达力超越了语言内容，包括个性、情绪或表演元素，例如安慰的语气或哼唱歌曲，我们将这些形式化定义为角色扮演和歌唱。我们提出 VITA-QinYu，这是*首个*超越自然对话、同时支持角色扮演和歌唱生成的端到端（E2E）表达性语音语言模型（SLM）。VITA-QinYu 采用混合语音-文本范式，通过多码本音频令牌扩展交错式文本-音频建模，这种设计在保持模态间清晰分离以避免干扰的同时，实现了更丰富的副语言表示。我们进一步开发了一个全面的数据生成管道，合成了总计 15.8 小时的用于训练的自然对话、角色扮演和歌唱数据。VITA-QinYu 展示了卓越的表达力，在客观角色扮演基准上比同行 SLM 高出 77 个百分点，在歌唱方面以 0.13 分的优势在 5 分制平均意见分数（MOS）上超越同行模型。同时，它达到了最先进的对话准确性和流畅度，在 C3 和 URO 基准上分别比先前的 SLM 高出 1.38 和 4.98 个百分点。我们开源了代码和模型，并提供了一个易于使用的演示，全面支持流式和全双工交互。

## 1 引言

端到端（E2E）语音语言模型（SLMs）在流畅且信息丰富的对话能力方面取得了显著进展，其在理解、推理和指令遵循方面的表现接近纯文本模型（Chen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib48); Zhang 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib29)）。然而，人类语音携带丰富的副语言线索——如韵律、语调、节奏和风格——这些线索传达了个性和情感。例如，用户在特定情况下可能需要安慰性的话语或轻柔的哼唱。我们将这些方面形式化定义为角色扮演和歌唱，视其为语音表达力的关键形式（Huang 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib14)），这在 E2E SLMs 中仍探索不足。

现有的表达性语音系统大多是特定任务的，不支持通用对话助手。角色扮演系统（Li 等人, 2023 (https://arxiv.org/html/2605.06765#bib.bib26); Wang 等人, 2024c (https://arxiv.org/html/2605.06765#bib.bib25); Zhang 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib24)）通常采用级联流水线，结合基于 LLM 的文本生成与外部语音合成。尽管具有模块化特性，但由于其多组件设计，这些方法引入了显著的工程复杂性。传统的歌唱语音合成（SVS）方法依赖于歌词和乐谱（Pan 等人, 2026 (https://arxiv.org/html/2605.06765#bib.bib23)），限制了其在现实交互中的应用，因为在现实交互中用户仅提供歌曲或歌手名称。这促使我们研究更通用的设置，即从最小化的自然语言输入生成歌唱。

表 1 (https://arxiv.org/html/2605.06765#S1.T1) 展示了近期 LLMs 和 SLMs 的比较。受这些局限性的启发，我们提出了 VITA-QinYu，这是首个支持表达性语音生成及自然对话的 E2E SLM。VITA-QinYu 采用混合语音-文本范式，通过并行多码本音频令牌建模（Xie 和 Wu, 2024 (https://arxiv.org/html/2605.06765#bib.bib43)）扩展交错式建模（Zeng 等人, 2024b (https://arxiv.org/html/2605.06765#bib.bib50)），在提高副语言表达力的同时减少跨模态干扰（Nguyen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib49)）。作为一个原生端到端系统，它避免了级联流水线的复杂性。

为了支持表达性生成，我们构建了大规模的角色扮演和歌唱数据集。我们 2.6K 小时的角色扮演数据集涵盖 20K+ 个角色，源自带有结构化角色提取的有声书以及 LLM 生成的交互脚本，随后进行基于指令的表达性语音合成。我们还通过收集热门歌曲、使用 MIDI 引导的零样本 SVS 进行高质量人声录制，并将歌曲信息转换为自然语言指令用于对话建模，构建了一个 1.2K 小时的歌唱数据集。

表 1：现有 LLM 和 SLM 在语音模态（Speech）、自然对话（Natural Conv.）、角色扮演（Role-Play）、端到端架构（Arch.）和语音-文本建模范式（Paradigm）上的比较。“N/A”表示“不适用”。我们将角色扮演和歌唱视为迈向更广泛表达性语音生成的初步步骤。我们希望这项工作能为未来研究提供基础，并继续改进 VITA-QinYu 的这些能力。

我们的贡献总结如下：

- • 我们提出了 VITA-QinYu，这是首个具有混合文本-语音范式的 E2E SLM，在保持强大对话能力的同时支持表达性角色扮演和歌唱。
- • 我们构建了 3.8K 小时的角色扮演和歌唱数据集，以解决表达性语音建模中的空白。
- • 实验表明，VITA-QinYu 实现了强大的表达力，在角色扮演和歌唱基准上优于先前的 SLMs，同时也达到或超越了最先进的对话性能。

## 2 相关工作

语音语言模型（SLMs）
E2E SLMs 可按架构和建模范式进行分类。在架构上，它们包括原生模型和对齐模型（Chen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib48)）。原生 SLMs（Défossez 等人, 2024 (https://arxiv.org/html/2605.06765#bib.bib46); Xie 和 Wu, 2024 (https://arxiv.org/html/2605.06765#bib.bib43); Zeng 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib47); Gao 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib99); Long 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib30); Zhang 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib29)）使用单一的仅解码器 Transformer 进行联合文本-音频建模，但在模态差距和有限的预训练方面存在困难。对齐 SLMs（Fang 等人, 2024 (https://arxiv.org/html/2605.06765#bib.bib51); Chen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib48); Xue 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib102); b (https://arxiv.org/html/2605.06765#bib.bib103)）采用“思考者-说话者”两阶段设计以保留推理能力。像 Minmo（Chen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib48)）和 Qwen-Omni（Xue 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib102); b (https://arxiv.org/html/2605.06765#bib.bib103)）这样的系统解耦了推理和语音生成，但依赖于单独的合成模块，通常限制了副语言表达力。

从建模角度来看，并行模型（Défossez 等人, 2024 (https://arxiv.org/html/2605.06765#bib.bib46); Xie 和 Wu, 2024 (https://arxiv.org/html/2605.06765#bib.bib43); Chen 等人, 2024b (https://arxiv.org/html/2605.06765#bib.bib53); Gao 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib99); Ding 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib105); Zhang 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib29)）使用多码本音频令牌以获取更丰富的声学信息，但可能会削弱文本-语音对齐（Nguyen 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib49)），而交错式模型（Zeng 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib47); Long 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib30); Li 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib104)）交替使用文本和语音令牌以获得更好的语言一致性，但依赖于更简单的音频表示和用于韵律的额外解码器。像 Baichuan-Audio（Li 等人, 2025b (https://arxiv.org/html/2605.06765#bib.bib104)）这样的扩展结合了两者的想法，但解码流水线更复杂。VITA-QinYu 通过用轻量级 MLP 头替换流匹配解码器简化了这一设计，促进了更统一的文本-音频建模。

音频分词器
音频分词器的架构选择决定了重建保真度、副语言表达力和推理效率之间的权衡。基于残差向量量化的解码器 Défossez 等人 (2024 (https://arxiv.org/html/2605.06765#bib.bib46)); Ye 等人 (2025 (https://arxiv.org/html/2605.06765#bib.bib131)); Wang 等人 (2025b (https://arxiv.org/html/2605.06765#bib.bib7)); Siuzdak 等人 (2024 (https://arxiv.org/html/2605.06765#bib.bib54)); Gong 等人 (2025 (https://arxiv.org/html/2605.06765#bib.bib17)) 通过多个码本表示音频。这些码本自然地捕捉丰富的副语言信息，如说话人身份和韵律。由于表示描述性很强，它对解码器的计算需求较小；简单的基于 CNN 的解码器通常足以以低延迟重建高质量音频。相比之下，像 CosyVoice2（Du 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib41)）和 GLM-4-Voice（Zeng 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib47)）这样的模型依赖于单码本语义令牌。虽然这些令牌在语义效率上高度压缩，但往往导致副语言细节的丢失。在初步实验中，我们发现这些分词器无法重建原始歌唱声音的旋律。

角色扮演模型
LLMs 的最新进展实现了强大的角色扮演能力（Chen 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib15)），实现了沉浸式的角色模拟。然而，大多数语音角色扮演系统仍然是级联的。例如，ChatHaruhi（Li 等人, 2023 (https://arxiv.org/html/2605.06765#bib.bib26)）通过 LLM 生成角色一致的文本，并依赖外部 TTS 进行语音生成。OmniCharacter（Zhang 等人, 2025a (https://arxiv.org/html/2605.06765#bib.bib24)）使用 Whisper（Radford 等人, 2023 (https://arxiv.org/html/2605.06765#bib.bib59)）编码用户查询，将其与 Qwen2.5-7B-Instruct（Yang 等人, 2024a (https://arxiv.org/html/2605.06765#bib.bib40)）骨干对齐以生成文本，然后使用单独的语音 LLM 和合成模块生成角色感知的语音。

歌唱语音合成模型
传统的歌唱语音合成（SVS）从歌词和乐谱生成高保真度人声（Pan 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib10)），最近的进展提高了质量和建模。VISinger（Zhang 等人, 2022b (https://arxiv.org/html/2605.06765#bib.bib12)），基于 VITS（Kim 等人, 2021 (https://arxiv.org/html/2605.06765#bib.bib11)），实现了端到端 SVS；Toksing（Wu 等人, 2024 (https://arxiv.org/html/2605.06765#bib.bib9)）在量化表示上使用非自回归语言模型；HiddenSinger（Hwang 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib8)）在神经编解码器上应用潜在扩散。然而，大多数 SVS 系统依赖于结构化输入（例如 MIDI），限制了其在仅提供自然语言的交互式设置中的使用。

## 3 方法

参见标题图 1：VITA-QinYu 的架构概览。对于文本输入，LLM 直接消费嵌入；对于语音输入，说话人模块提取说话人嵌入，音频编码器提取连续特征。额外的代理说话人嵌入控制响应音色。在这些信号的条件下，LLM 生成交错的文本和多码本音频令牌。音频令牌经过时间移位以提高质量，平均回模型以供下一步使用，并解码为波形。在训练期间，说话人和音频编码器被冻结，仅更新适配器和 LLM。参见标题 (a) 多轮对话。
参见标题 (b) 代理说话人。
参见标题 (c) 打断。

图 2：多轮对话、代理说话人生成和打断的逻辑。VITA-QinYu 的架构概览如图 1 (https://arxiv.org/html/2605.06765#S3.F1) 所示，由音频编码器、音频适配器、说话人嵌入模块、语言模型骨干和八个语言建模头组成。此外，文本到音色（TTT）模块集成到系统中用于角色扮演任务。以下部分详细介绍了每个组件。

骨干模型
VITA-QinYu 的骨干是基于仅解码器 Transformer 的语言模型（LM）。我们实验了 Qwen3-8B（Hu 等人, 2026 (https://arxiv.org/html/2605.06765#bib.bib113)）和 Youtu-LLM-4B（Lu 等人, 2025 (https://arxiv.org/html/2605.06765#bib.bib19)），产生了两个变体：VITA-QinYu-8B 和 VITA-QinYu-4B。骨干模型处理用户的查询，无论是语音还是文本，并在混合范式中生成文本和音频响应，我们将其形式化如下。

将用户输入表示为 $X \in \mathcal{X}$，其中 $\mathcal{X}$ 是文本和语音嵌入的联合空间。将模型的文本响应和语音响应分别表示为 $Y \in \mathcal{V}$ 和 $Z \in \mathcal{U}$，其中 $\mathcal{V}$ 是文本词汇表集，$\mathcal{U}$ 是语音编解码器词汇表集。在具有 $J$ 个码本的多码本设置中，我们有 $\mathcal{U} = \cup_{j=0}^{J-1} \mathcal{U}^j$，语音令牌 $Z$ 可以是并行堆叠的多码本令牌：$Z = [Z^j]_{j=0}^{J-1}$，其中语音令牌 $Z^j \in \mathcal{U}^j$ 属于第 $j$ 个码本词汇表集 $\mathcal{U}^j$。我们以预定义的比率 $n:m$ 将文本和语音响应令牌交错成一个新的序列 $S$，如下所示：

$S = [Y_{0:n-1}, Z_{0:m-1}, Y_{n:2n-1}, Z_{m:2m-1}, \dots]$ (1)

其中文本令牌和语音令牌分别在大小为 $n$ 和 $m$ 的块中交替。一旦文本令牌被消耗完毕，剩余的语音令牌被附加到序列的末尾。将数据集表示为 $\mathcal{D} = \{ (X_i, S_i) \}_{i=1}^D$，其中 $D$ 是数据集中的样本数。数据集 $\mathcal{D}$ 上的负对数似然 $\mathcal{L}$ 可以建模为：

$\mathcal{L} = \sum_{i=1}^{D} \sum_{t=1}^{T_i} \log P(S_{i,t} \| X_i, S_{i,<t})$ (2)

其中 $T_i$ 是交错序列 $S_i$ 的长度。当 $S_t \in \mathcal{V}$ 是文本令牌时，我们计算条件对数概率的方式与传统 LLM 方法相同。当 $S_t \in \mathcal{U}$ 是堆叠的语音令牌时，对数概率使用跨 $J$ 个码本的语音令牌的平均对数概率进行建模。形式上，对数概率 $\log P(S_t \| X, S_{<t})$ 计算如下：

$$
\log P(S_t \| X_{<t}, S_{<t}) = \begin{cases} 
\log P(Y \| X, S_{<t}), & \text{如果 } S_t \text{ 是文本: } S_t = Y, \\
\frac{1}{J} \sum_{j=0}^{J-1} \log P(Z^j \| X, S_{<t}) & \text{如果 } S_t \text{ 是语音: } S_t = [Z^j]_{j=0}^{J-1},
\end{cases}
$$ (3)

其中下标 $i$ 为了清晰起见被省略。

多轮对话
我们将对话历史前置到 LLM 的输入以支持多轮交互。用户的查询，无论是文本还是语音，都原样包含在内。由于语音响应通常很长且与相应的文本响应在很大程度上冗余，我们丢弃语音并仅保留文本响

VITA-QinYu：用于角色扮演和唱歌的表现力口语语言模型

相似文章

DramaBox - 基于LTX 2.3的最具表现力语音模型

@KevinQHLin：介绍 Violin —— 一款开源视频翻译技能。视频是互联网上的主流媒介，然而大多数高质量内容（讲座、演讲、播客）都局限于单一语言，将全球观众拒之门外。

@zohaibahmed: @resembleai研究团队的新语音AI模型：Dramabox！一个语音AI模型应该给你两样东西：奥斯卡级别的表演和可验证的签名，以证明它是你的。

VibeVoice 技术报告

OpenAI的新语音模型不止于回话

提交意见反馈