IndexTTS: 一个工业级可控高效的零样本 文本转语音系统

Papers with Code Trending 论文

摘要

IndexTTS 是一个增强型文本转语音系统,结合了 XTTS 和 Tortoise 模型,采用混合字符-拼音建模和优化的向量量化,在自然度、发音可控性和推理速度上优于现有的开源 TTS 系统。

近期,基于大语言模型(LLM)的文本转语音(TTS)系统因其高自然度和强大的零样本语音克隆能力逐渐成为行业主流。本文介绍 IndexTTS 系统,该系统主要基于 XTTS 和 Tortoise 模型,并加入了一些新颖的改进。具体来说,在中文场景中,我们采用了结合字符和拼音的混合建模方法,使多音字和长尾字的发音变得可控。我们还对向量量化(VQ)与有限标量量化(FSQ)在声学语音令牌的码本利用率方面进行了比较分析。为了进一步提升语音克隆的效果和稳定性,我们引入了基于 conformer 的语音条件编码器,并将语音编码解码器替换为 BigVGAN2。与 XTTS 相比,IndexTTS 在自然度、内容一致性和零样本语音克隆方面均取得了显著提升。至于开源社区中流行的 TTS 系统,如 Fish-Speech、CosyVoice2、FireRedTTS 和 F5-TTS,IndexTTS 的训练过程相对简单,使用更可控,推理速度更快。此外,其性能也超越了这些系统。我们的演示音频请访问 https://index-tts.github.io。
查看原文
查看缓存全文

缓存时间: 2026/06/21 04:32

论文页面 - IndexTTS:工业级可控高效零样本文本转语音系统

来源:https://huggingface.co/papers/2502.05512

摘要

IndexTTS,一个融合了XTTS和Tortoise模型的增强型文本转语音系统,通过混合字符-拼音建模和优化的矢量量化,实现了更高的自然度、更强的声音克隆能力以及可控的使用方式。

近年来,基于大语言模型(LLM)的文本转语音(TTS)系统因其高自然度(https://huggingface.co/papers?q=naturalness)和强大的零样本声音克隆(https://huggingface.co/papers?q=zero-shot%20voice%20cloning)能力,逐渐成为行业主流。本文介绍的IndexTTS(https://huggingface.co/papers?q=IndexTTS)系统主要基于XTTS(https://huggingface.co/papers?q=XTTS)和Tortoise(https://huggingface.co/papers?q=Tortoise)模型,并加入了一些新颖的改进。具体而言,在中文场景下,我们采用了一种结合字符(https://huggingface.co/papers?q=characters)和拼音(https://huggingface.co/papers?q=pinyin)的混合建模方法,使得多音字(https://huggingface.co/papers?q=characters)和生僻字(https://huggingface.co/papers?q=characters)的发音变得可控。我们还对矢量量化(VQ)(https://huggingface.co/papers?q=Vector%20Quantization%20(VQ))与有限标量量化(FSQ)(https://huggingface.co/papers?q=Finite-Scalar%20Quantization%20(FSQ))在语音声学令牌的码本利用率方面进行了对比分析。为了进一步提升声音克隆的效果和稳定性,我们引入了基于Conformer的语音条件编码器(https://huggingface.co/papers?q=conformer-based%20speech%20conditional%20encoder),并将语音编解码器替换为BigVGAN2(https://huggingface.co/papers?q=BigVGAN2)。与XTTS(https://huggingface.co/papers?q=XTTS)相比,在自然度(https://huggingface.co/papers?q=naturalness)、内容一致性(https://huggingface.co/papers?q=content%20consistency)和零样本声音克隆方面取得了显著提升。至于开源社区中流行的TTS系统,如Fish-Speech(https://huggingface.co/papers?q=Fish-Speech)、CosyVoice2(https://huggingface.co/papers?q=CosyVoice2)、FireRedTTS(https://huggingface.co/papers?q=FireRedTTS)和F5-TTS(https://huggingface.co/papers?q=F5-TTS),IndexTTS(https://huggingface.co/papers?q=IndexTTS)具有相对简单的训练流程、更强的可控性以及更快的推理速度。此外,其性能也超越了这些系统。我们的演示可在 https://index-tts.github.io/ 查看。

查看arXiv页面(https://arxiv.org/abs/2502.05512)查看PDF(https://arxiv.org/pdf/2502.05512)项目页面(https://index-tts.github.io/)GitHub21.3k自动(https://github.com/index-tts/index-tts)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2502.05512)

在您的Agent中获取此论文:

hf papers read 2502.05512

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 24

IndexTeam/IndexTTS-2 文本转语音• 更新于1月20日 • 14.8k • 735 (https://huggingface.co/IndexTeam/IndexTTS-2)

IndexTeam/Index-TTS 文本转语音• 更新于2025年4月27日 • 181 • 150 (https://huggingface.co/IndexTeam/Index-TTS)

taraskurtizan/IndexTTS-2 文本转语音• 更新于约12小时前 • 2 (https://huggingface.co/taraskurtizan/IndexTTS-2)

Toxzic/indextts-colab 更新于2025年9月19日 (https://huggingface.co/Toxzic/indextts-colab)

浏览引用本论文的24个模型(https://huggingface.co/models?other=arxiv:2502.05512)## 引用本论文的数据集 1

echodict/index-tts (https://huggingface.co/datasets/echodict/index-tts)

引用本论文的空间 40

浏览引用本论文的40个空间(https://huggingface.co/spaces?arxivIds=2502.05512)## 包含本论文的收藏 4

相似文章

Aratako/Irodori-TTS-500M-v3

Hugging Face Models Trending

Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。

dots.tts 技术报告

Hugging Face Daily Papers

dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型,基于多语言数据进行训练,在 Seed-TTS-Eval 等基准测试上取得了最先进的性能,并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。