Qwen3-TTS 技术报告
摘要
Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型,具备语音克隆和可控生成能力,采用双轨 LM 架构和专用分词器以实现低延迟流式处理。
查看缓存全文
缓存时间: 2026/05/10 18:36
论文页面 - Qwen3-TTS 技术报告
来源: https://huggingface.co/papers/2601.15621 作者:
,
,
,
,
,
,
,
,
,
摘要
Qwen3-TTS 系列展示了先进的多语言文本到语音模型,具备语音克隆和可控语音生成能力,利用双轨语言模型(LM)架构和专门的语音分词器来实现高效的流式合成。
在本报告中,我们介绍了 Qwen3-TTS 系列,这是一组先进的多语言 (https://huggingface.co/papers?q=multilingual)、可控、鲁棒且支持流式的文本到语音 (https://huggingface.co/papers?q=text-to-speech) 模型。Qwen3-TTS 支持最先进的 3 秒语音克隆 (https://huggingface.co/papers?q=voice%20cloning) 和基于描述的控制,既允许创建全新的语音,也能对输出语音进行细粒度操控。Qwen3-TTS 在涵盖 10 种语言的超过 500 万小时语音数据上进行训练,采用双轨语言模型架构 (https://huggingface.co/papers?q=dual-track%20LM%20architecture) 以实现实时合成,并结合两种语音分词器 (https://huggingface.co/papers?q=speech%20tokenizers):1) Qwen-TTS-Tokenizer-25Hz (https://huggingface.co/papers?q=Qwen-TTS-Tokenizer-25Hz) 是一种强调语义内容的单码本编解码器,它与 Qwen-Audio 无缝集成,并通过基于块的 DiT (https://huggingface.co/papers?q=DiT) 实现流式波形重建 (https://huggingface.co/papers?q=streaming%20waveform%20reconstruction)。2) Qwen-TTS-Tokenizer-12Hz (https://huggingface.co/papers?q=Qwen-TTS-Tokenizer-12Hz) 实现了极致的比特率降低和超低延迟流式传输,凭借其 12.5 Hz、16 层多码本设计以及轻量级因果 ConvNet (https://huggingface.co/papers?q=ConvNet),可实现即时首包发射 (97ms)。大量实验表明,该模型在多样的客观和主观基准测试(例如 TTS 多语言 (https://huggingface.co/papers?q=multilingual) 测试集、InstructTTSEval 以及我们的长语音测试集)中均达到了最先进的性能。为了促进社区的研究与开发,我们在 Apache 2.0 许可证下开源了这两种分词器和模型。
查看 arXiv 页面 (https://arxiv.org/abs/2601.15621)查看 PDF (https://arxiv.org/pdf/2601.15621)GitHub11.3k (https://github.com/QwenLM/Qwen3-TTS)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2601.15621)
在您的 agent 中获取此论文:
hf papers read 2601.15621
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型240
Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice 文本到语音• 2B• 更新于 1 月 29 日 • 1.65M • 1.46k (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice)
Qwen/Qwen3-TTS-12Hz-1.7B-Base 更新于 1 月 23 日 • 1.67M • 390 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Base)
Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign 文本到语音• 2B• 更新于 1 月 29 日 • 454k • 338 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign)
Qwen/Qwen3-TTS-12Hz-0.6B-Base 文本到语音• 更新于 1 月 29 日 • 665k • 234 (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-0.6B-Base)
浏览引用此论文的 240 个模型 (https://huggingface.co/models?other=arxiv:2601.15621)## 引用此论文的数据集1
Izzyzlin/CFSDD 查看者• 更新于 4 月 7 日 • 395k • 264 (https://huggingface.co/datasets/Izzyzlin/CFSDD)
引用此论文的 Spaces1,583
包含此论文的合集20
浏览包含此论文的 20 个合集 (https://huggingface.co/collections?paper=2601.15621)
相似文章
Qwen3 TTS 被严重低估了——我本地实时跑通后,发现它是目前最有表现力的开源 TTS 之一
开发者演示如何本地实时运行 Qwen3 TTS,支持流式输出、量化、词级对齐与自定义音色微调,打造高表现力的开源 TTS 流水线。
Qwen3.5-Omni 技术报告
Qwen3.5-Omni 是一个千亿参数的多模态模型,具备先进的音视频理解与生成能力,引入了新颖的 Audio-Visual Vibe Coding,在215项基准测试中取得SOTA结果,同时与 Gemini-3.1 Pro 持平。
Qwen3.7预览版登陆Arena(1分钟阅读)
阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。
Qwen-Image-2.0 技术报告
Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。
QWEN3.6 + ik_llama 快得离谱
用户报告成功部署 Qwen 3.6 与 ik_llama 量化,在消费级硬件(16GB VRAM、32GB RAM)上实现 200k 上下文窗口下 50+ token/秒。