Qwen3-TTS 技术报告

Papers with Code Trending 2026/01/22 03:51 论文

text-to-speech voice-cloning multilingual open-source qwen speech-synthesis low-latency

摘要

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型，具备语音克隆和可控生成能力，采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

在本报告中，我们展示了 Qwen3-TTS 系列，这是一族先进的多语言、可控、鲁棒且支持流式处理的文本转语音模型。Qwen3-TTS 支持最先进的 3 秒语音克隆和基于描述的控制，既能够创建全新的语音，也能对输出语音进行细粒度操控。Qwen3-TTS 在涵盖 10 种语言的超过 500 万小时语音数据上进行训练，采用双轨 LM 架构以实现实时合成，并结合了两种语音分词器：1) Qwen-TTS-Tokenizer-25Hz 是一种强调语义内容的单码本编解码器，能够与 Qwen-Audio 无缝集成，并通过基于块的 DiT 实现流式波形重建。2) Qwen-TTS-Tokenizer-12Hz 实现了极高的比特率压缩和超低延迟流式处理，凭借其 12.5 Hz、16 层多码本设计以及轻量级因果卷积网络，能够实现即时首包发送（97 毫秒）。大量实验表明，该模型在多种客观和主观基准测试（例如 TTS 多语言测试集、InstructTTSEval 以及我们的长语音测试集）中均达到了最先进的性能。为促进社区的研究与开发，我们在 Apache 2.0 许可证下发布了这两种分词器及模型。

查看原文

查看缓存全文

缓存时间: 2026/05/10 18:36

论文页面 - Qwen3-TTS 技术报告

来源: https://huggingface.co/papers/2601.15621 作者:

摘要

Qwen3-TTS 系列展示了先进的多语言文本到语音模型，具备语音克隆和可控语音生成能力，利用双轨语言模型（LM）架构和专门的语音分词器来实现高效的流式合成。

在本报告中，我们介绍了 Qwen3-TTS 系列，这是一组先进的多语言 (https://huggingface.co/papers?q=multilingual)、可控、鲁棒且支持流式的文本到语音 (https://huggingface.co/papers?q=text-to-speech) 模型。Qwen3-TTS 支持最先进的 3 秒语音克隆 (https://huggingface.co/papers?q=voice%20cloning) 和基于描述的控制，既允许创建全新的语音，也能对输出语音进行细粒度操控。Qwen3-TTS 在涵盖 10 种语言的超过 500 万小时语音数据上进行训练，采用双轨语言模型架构 (https://huggingface.co/papers?q=dual-track%20LM%20architecture) 以实现实时合成，并结合两种语音分词器 (https://huggingface.co/papers?q=speech%20tokenizers)：1) Qwen-TTS-Tokenizer-25Hz (https://huggingface.co/papers?q=Qwen-TTS-Tokenizer-25Hz) 是一种强调语义内容的单码本编解码器，它与 Qwen-Audio 无缝集成，并通过基于块的 DiT (https://huggingface.co/papers?q=DiT) 实现流式波形重建 (https://huggingface.co/papers?q=streaming%20waveform%20reconstruction)。2) Qwen-TTS-Tokenizer-12Hz (https://huggingface.co/papers?q=Qwen-TTS-Tokenizer-12Hz) 实现了极致的比特率降低和超低延迟流式传输，凭借其 12.5 Hz、16 层多码本设计以及轻量级因果 ConvNet (https://huggingface.co/papers?q=ConvNet)，可实现即时首包发射 (97ms)。大量实验表明，该模型在多样的客观和主观基准测试（例如 TTS 多语言 (https://huggingface.co/papers?q=multilingual) 测试集、InstructTTSEval 以及我们的长语音测试集）中均达到了最先进的性能。为了促进社区的研究与开发，我们在 Apache 2.0 许可证下开源了这两种分词器和模型。

查看 arXiv 页面 (https://arxiv.org/abs/2601.15621)查看 PDF (https://arxiv.org/pdf/2601.15621)GitHub11.3k (https://github.com/QwenLM/Qwen3-TTS)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2601.15621)

在您的 agent 中获取此论文：

hf papers read 2601.15621

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型240

Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice 文本到语音• 2B• 更新于 1 月 29 日 • 1.65M • 1.46k (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice)

Qwen/Qwen3-TTS-12Hz-1.7B-Base 更新于 1 月 23 日 • 1.67M • 390 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Base)

Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign 文本到语音• 2B• 更新于 1 月 29 日 • 454k • 338 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign)

Qwen/Qwen3-TTS-12Hz-0.6B-Base 文本到语音• 更新于 1 月 29 日 • 665k • 234 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-0.6B-Base)

浏览引用此论文的 240 个模型 (https://huggingface.co/models?other=arxiv:2601.15621)## 引用此论文的数据集1

Izzyzlin/CFSDD 查看者• 更新于 4 月 7 日 • 395k • 264 (https://huggingface.co/datasets/Izzyzlin/CFSDD)

引用此论文的 Spaces1,583

包含此论文的合集20

浏览包含此论文的 20 个合集 (https://huggingface.co/collections?paper=2601.15621)

Qwen3-TTS 技术报告

论文页面 - Qwen3-TTS 技术报告

摘要

引用此论文的模型240

Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice 文本到语音• 2B• 更新于 1 月 29 日 • 1.65M • 1.46k (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice)

Qwen/Qwen3-TTS-12Hz-1.7B-Base 更新于 1 月 23 日 • 1.67M • 390 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Base)

Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign 文本到语音• 2B• 更新于 1 月 29 日 • 454k • 338 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign)

Qwen/Qwen3-TTS-12Hz-0.6B-Base 文本到语音• 更新于 1 月 29 日 • 665k • 234 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-0.6B-Base)

Izzyzlin/CFSDD 查看者• 更新于 4 月 7 日 • 395k • 264 (https://huggingface.co/datasets/Izzyzlin/CFSDD)

引用此论文的 Spaces1,583

包含此论文的合集20

相似文章

Qwen3 TTS 被严重低估了——我本地实时跑通后，发现它是目前最有表现力的开源 TTS 之一

Qwen3.5-Omni 技术报告

Qwen3.7预览版登陆Arena（1分钟阅读）

Qwen-Image-2.0 技术报告

QWEN3.6 + ik_llama 快得离谱

提交意见反馈