Qwen3-TTS 技术报告

Papers with Code Trending 论文

摘要

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型,具备语音克隆和可控生成能力,采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

在本报告中,我们展示了 Qwen3-TTS 系列,这是一族先进的多语言、可控、鲁棒且支持流式处理的文本转语音模型。Qwen3-TTS 支持最先进的 3 秒语音克隆和基于描述的控制,既能够创建全新的语音,也能对输出语音进行细粒度操控。Qwen3-TTS 在涵盖 10 种语言的超过 500 万小时语音数据上进行训练,采用双轨 LM 架构以实现实时合成,并结合了两种语音分词器:1) Qwen-TTS-Tokenizer-25Hz 是一种强调语义内容的单码本编解码器,能够与 Qwen-Audio 无缝集成,并通过基于块的 DiT 实现流式波形重建。2) Qwen-TTS-Tokenizer-12Hz 实现了极高的比特率压缩和超低延迟流式处理,凭借其 12.5 Hz、16 层多码本设计以及轻量级因果卷积网络,能够实现即时首包发送(97 毫秒)。大量实验表明,该模型在多种客观和主观基准测试(例如 TTS 多语言测试集、InstructTTSEval 以及我们的长语音测试集)中均达到了最先进的性能。为促进社区的研究与开发,我们在 Apache 2.0 许可证下发布了这两种分词器及模型。
查看原文
查看缓存全文

缓存时间: 2026/05/10 18:36

论文页面 - Qwen3-TTS 技术报告

来源: https://huggingface.co/papers/2601.15621 作者:

,

,

,

,

,

,

,

,

,

摘要

Qwen3-TTS 系列展示了先进的多语言文本到语音模型,具备语音克隆和可控语音生成能力,利用双轨语言模型(LM)架构和专门的语音分词器来实现高效的流式合成。

在本报告中,我们介绍了 Qwen3-TTS 系列,这是一组先进的多语言 (https://huggingface.co/papers?q=multilingual)、可控、鲁棒且支持流式的文本到语音 (https://huggingface.co/papers?q=text-to-speech) 模型。Qwen3-TTS 支持最先进的 3 秒语音克隆 (https://huggingface.co/papers?q=voice%20cloning) 和基于描述的控制,既允许创建全新的语音,也能对输出语音进行细粒度操控。Qwen3-TTS 在涵盖 10 种语言的超过 500 万小时语音数据上进行训练,采用双轨语言模型架构 (https://huggingface.co/papers?q=dual-track%20LM%20architecture) 以实现实时合成,并结合两种语音分词器 (https://huggingface.co/papers?q=speech%20tokenizers):1) Qwen-TTS-Tokenizer-25Hz (https://huggingface.co/papers?q=Qwen-TTS-Tokenizer-25Hz) 是一种强调语义内容的单码本编解码器,它与 Qwen-Audio 无缝集成,并通过基于块的 DiT (https://huggingface.co/papers?q=DiT) 实现流式波形重建 (https://huggingface.co/papers?q=streaming%20waveform%20reconstruction)。2) Qwen-TTS-Tokenizer-12Hz (https://huggingface.co/papers?q=Qwen-TTS-Tokenizer-12Hz) 实现了极致的比特率降低和超低延迟流式传输,凭借其 12.5 Hz、16 层多码本设计以及轻量级因果 ConvNet (https://huggingface.co/papers?q=ConvNet),可实现即时首包发射 (97ms)。大量实验表明,该模型在多样的客观和主观基准测试(例如 TTS 多语言 (https://huggingface.co/papers?q=multilingual) 测试集、InstructTTSEval 以及我们的长语音测试集)中均达到了最先进的性能。为了促进社区的研究与开发,我们在 Apache 2.0 许可证下开源了这两种分词器和模型。

查看 arXiv 页面 (https://arxiv.org/abs/2601.15621)查看 PDF (https://arxiv.org/pdf/2601.15621)GitHub11.3k (https://github.com/QwenLM/Qwen3-TTS)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2601.15621)

在您的 agent 中获取此论文:

hf papers read 2601.15621

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型240

Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice 文本到语音• 2B• 更新于 1 月 29 日 • 1.65M • 1.46k (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice)

Qwen/Qwen3-TTS-12Hz-1.7B-Base 更新于 1 月 23 日 • 1.67M • 390 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Base)

Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign 文本到语音• 2B• 更新于 1 月 29 日 • 454k • 338 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign)

Qwen/Qwen3-TTS-12Hz-0.6B-Base 文本到语音• 更新于 1 月 29 日 • 665k • 234 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-0.6B-Base)

浏览引用此论文的 240 个模型 (https://huggingface.co/models?other=arxiv:2601.15621)## 引用此论文的数据集1

Izzyzlin/CFSDD 查看者• 更新于 4 月 7 日 • 395k • 264 (https://huggingface.co/datasets/Izzyzlin/CFSDD)

引用此论文的 Spaces1,583

包含此论文的合集20

浏览包含此论文的 20 个合集 (https://huggingface.co/collections?paper=2601.15621)

相似文章

Qwen3.5-Omni 技术报告

Hugging Face Daily Papers

Qwen3.5-Omni 是一个千亿参数的多模态模型,具备先进的音视频理解与生成能力,引入了新颖的 Audio-Visual Vibe Coding,在215项基准测试中取得SOTA结果,同时与 Gemini-3.1 Pro 持平。

Qwen3.7预览版登陆Arena(1分钟阅读)

TLDR AI

阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。

Qwen-Image-2.0 技术报告

Hugging Face Daily Papers

Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。

QWEN3.6 + ik_llama 快得离谱

Reddit r/LocalLLaMA

用户报告成功部署 Qwen 3.6 与 ik_llama 量化,在消费级硬件(16GB VRAM、32GB RAM)上实现 200k 上下文窗口下 50+ token/秒。