IndexTTS: 一个工业级可控高效的零样本 文本转语音系统
摘要
IndexTTS 是一个增强型文本转语音系统,结合了 XTTS 和 Tortoise 模型,采用混合字符-拼音建模和优化的向量量化,在自然度、发音可控性和推理速度上优于现有的开源 TTS 系统。
查看缓存全文
缓存时间: 2026/06/21 04:32
论文页面 - IndexTTS:工业级可控高效零样本文本转语音系统
来源:https://huggingface.co/papers/2502.05512
摘要
IndexTTS,一个融合了XTTS和Tortoise模型的增强型文本转语音系统,通过混合字符-拼音建模和优化的矢量量化,实现了更高的自然度、更强的声音克隆能力以及可控的使用方式。
近年来,基于大语言模型(LLM)的文本转语音(TTS)系统因其高自然度(https://huggingface.co/papers?q=naturalness)和强大的零样本声音克隆(https://huggingface.co/papers?q=zero-shot%20voice%20cloning)能力,逐渐成为行业主流。本文介绍的IndexTTS(https://huggingface.co/papers?q=IndexTTS)系统主要基于XTTS(https://huggingface.co/papers?q=XTTS)和Tortoise(https://huggingface.co/papers?q=Tortoise)模型,并加入了一些新颖的改进。具体而言,在中文场景下,我们采用了一种结合字符(https://huggingface.co/papers?q=characters)和拼音(https://huggingface.co/papers?q=pinyin)的混合建模方法,使得多音字(https://huggingface.co/papers?q=characters)和生僻字(https://huggingface.co/papers?q=characters)的发音变得可控。我们还对矢量量化(VQ)(https://huggingface.co/papers?q=Vector%20Quantization%20(VQ))与有限标量量化(FSQ)(https://huggingface.co/papers?q=Finite-Scalar%20Quantization%20(FSQ))在语音声学令牌的码本利用率方面进行了对比分析。为了进一步提升声音克隆的效果和稳定性,我们引入了基于Conformer的语音条件编码器(https://huggingface.co/papers?q=conformer-based%20speech%20conditional%20encoder),并将语音编解码器替换为BigVGAN2(https://huggingface.co/papers?q=BigVGAN2)。与XTTS(https://huggingface.co/papers?q=XTTS)相比,在自然度(https://huggingface.co/papers?q=naturalness)、内容一致性(https://huggingface.co/papers?q=content%20consistency)和零样本声音克隆方面取得了显著提升。至于开源社区中流行的TTS系统,如Fish-Speech(https://huggingface.co/papers?q=Fish-Speech)、CosyVoice2(https://huggingface.co/papers?q=CosyVoice2)、FireRedTTS(https://huggingface.co/papers?q=FireRedTTS)和F5-TTS(https://huggingface.co/papers?q=F5-TTS),IndexTTS(https://huggingface.co/papers?q=IndexTTS)具有相对简单的训练流程、更强的可控性以及更快的推理速度。此外,其性能也超越了这些系统。我们的演示可在 https://index-tts.github.io/ 查看。
查看arXiv页面(https://arxiv.org/abs/2502.05512)查看PDF(https://arxiv.org/pdf/2502.05512)项目页面(https://index-tts.github.io/)GitHub21.3k自动(https://github.com/index-tts/index-tts)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2502.05512)
在您的Agent中获取此论文:
hf papers read 2502.05512
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 24
IndexTeam/IndexTTS-2 文本转语音• 更新于1月20日 • 14.8k • 735 (https://huggingface.co/IndexTeam/IndexTTS-2)
IndexTeam/Index-TTS 文本转语音• 更新于2025年4月27日 • 181 • 150 (https://huggingface.co/IndexTeam/Index-TTS)
taraskurtizan/IndexTTS-2 文本转语音• 更新于约12小时前 • 2 (https://huggingface.co/taraskurtizan/IndexTTS-2)
Toxzic/indextts-colab 更新于2025年9月19日 (https://huggingface.co/Toxzic/indextts-colab)
浏览引用本论文的24个模型(https://huggingface.co/models?other=arxiv:2502.05512)## 引用本论文的数据集 1
echodict/index-tts (https://huggingface.co/datasets/echodict/index-tts)
引用本论文的空间 40
浏览引用本论文的40个空间(https://huggingface.co/spaces?arxivIds=2502.05512)## 包含本论文的收藏 4
相似文章
@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS,性能碾压市面所有模型。我没有任何研究背景。上周我 w…
一位开发者记录了构建开源 Hinglish 文本转语音系统的过程,该系统通过修复上游推理 bug 并增加轻量级预处理封装,实现了超越现有模型的效果,且在无需训练或 GPU 资源的情况下达到了高质量。
@akshay_pachaar: 这个TTS模型生成语音的速度比人耳听到快167倍。Supertonic 是一款通过ONNX实现跨平台推理的设备端TTS引擎…
Supertonic 是一款新的开源TTS引擎,通过ONNX在设备上运行,支持31种语言,在速度上超越ElevenLabs,即使在无GPU的树莓派上也能运行。
WavTTS: 通过直接原始波形建模实现高质量零样本TTS
WavTTS 提出了首个使用流匹配和扩散变换器的原始波形生成式文本转语音模型,其性能可与潜在空间扩散模型相媲美,同时避免了压缩表示导致的信息损失。
Aratako/Irodori-TTS-500M-v3
Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。
dots.tts 技术报告
dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型,基于多语言数据进行训练,在 Seed-TTS-Eval 等基准测试上取得了最先进的性能,并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。