IndexTTS: 一个工业级可控高效的零样本文本转语音系统

Papers with Code Trending 2025/02/08 10:23 论文

摘要

IndexTTS 是一个增强型文本转语音系统，结合了 XTTS 和 Tortoise 模型，采用混合字符-拼音建模和优化的向量量化，在自然度、发音可控性和推理速度上优于现有的开源 TTS 系统。

近期，基于大语言模型（LLM）的文本转语音（TTS）系统因其高自然度和强大的零样本语音克隆能力逐渐成为行业主流。本文介绍 IndexTTS 系统，该系统主要基于 XTTS 和 Tortoise 模型，并加入了一些新颖的改进。具体来说，在中文场景中，我们采用了结合字符和拼音的混合建模方法，使多音字和长尾字的发音变得可控。我们还对向量量化（VQ）与有限标量量化（FSQ）在声学语音令牌的码本利用率方面进行了比较分析。为了进一步提升语音克隆的效果和稳定性，我们引入了基于 conformer 的语音条件编码器，并将语音编码解码器替换为 BigVGAN2。与 XTTS 相比，IndexTTS 在自然度、内容一致性和零样本语音克隆方面均取得了显著提升。至于开源社区中流行的 TTS 系统，如 Fish-Speech、CosyVoice2、FireRedTTS 和 F5-TTS，IndexTTS 的训练过程相对简单，使用更可控，推理速度更快。此外，其性能也超越了这些系统。我们的演示音频请访问 https://index-tts.github.io。

查看原文

查看缓存全文

缓存时间: 2026/06/21 04:32

论文页面 - IndexTTS：工业级可控高效零样本文本转语音系统

来源：https://huggingface.co/papers/2502.05512

摘要

IndexTTS，一个融合了XTTS和Tortoise模型的增强型文本转语音系统，通过混合字符-拼音建模和优化的矢量量化，实现了更高的自然度、更强的声音克隆能力以及可控的使用方式。

近年来，基于大语言模型（LLM）的文本转语音（TTS）系统因其高自然度（https://huggingface.co/papers?q=naturalness）和强大的零样本声音克隆（https://huggingface.co/papers?q=zero-shot%20voice%20cloning）能力，逐渐成为行业主流。本文介绍的IndexTTS（https://huggingface.co/papers?q=IndexTTS）系统主要基于XTTS（https://huggingface.co/papers?q=XTTS）和Tortoise（https://huggingface.co/papers?q=Tortoise）模型，并加入了一些新颖的改进。具体而言，在中文场景下，我们采用了一种结合字符（https://huggingface.co/papers?q=characters）和拼音（https://huggingface.co/papers?q=pinyin）的混合建模方法，使得多音字（https://huggingface.co/papers?q=characters）和生僻字（https://huggingface.co/papers?q=characters）的发音变得可控。我们还对矢量量化（VQ）（https://huggingface.co/papers?q=Vector%20Quantization%20(VQ)）与有限标量量化（FSQ）（https://huggingface.co/papers?q=Finite-Scalar%20Quantization%20(FSQ)）在语音声学令牌的码本利用率方面进行了对比分析。为了进一步提升声音克隆的效果和稳定性，我们引入了基于Conformer的语音条件编码器（https://huggingface.co/papers?q=conformer-based%20speech%20conditional%20encoder），并将语音编解码器替换为BigVGAN2（https://huggingface.co/papers?q=BigVGAN2）。与XTTS（https://huggingface.co/papers?q=XTTS）相比，在自然度（https://huggingface.co/papers?q=naturalness）、内容一致性（https://huggingface.co/papers?q=content%20consistency）和零样本声音克隆方面取得了显著提升。至于开源社区中流行的TTS系统，如Fish-Speech（https://huggingface.co/papers?q=Fish-Speech）、CosyVoice2（https://huggingface.co/papers?q=CosyVoice2）、FireRedTTS（https://huggingface.co/papers?q=FireRedTTS）和F5-TTS（https://huggingface.co/papers?q=F5-TTS），IndexTTS（https://huggingface.co/papers?q=IndexTTS）具有相对简单的训练流程、更强的可控性以及更快的推理速度。此外，其性能也超越了这些系统。我们的演示可在 https://index-tts.github.io/ 查看。

查看arXiv页面（https://arxiv.org/abs/2502.05512）查看PDF（https://arxiv.org/pdf/2502.05512）项目页面（https://index-tts.github.io/）GitHub21.3k自动（https://github.com/index-tts/index-tts）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2502.05512）

在您的Agent中获取此论文：

hf papers read 2502.05512

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 24

IndexTeam/IndexTTS-2 文本转语音• 更新于1月20日 • 14.8k • 735 (https://huggingface.co/IndexTeam/IndexTTS-2)

IndexTeam/Index-TTS 文本转语音• 更新于2025年4月27日 • 181 • 150 (https://huggingface.co/IndexTeam/Index-TTS)

taraskurtizan/IndexTTS-2 文本转语音• 更新于约12小时前 • 2 (https://huggingface.co/taraskurtizan/IndexTTS-2)

Toxzic/indextts-colab 更新于2025年9月19日 (https://huggingface.co/Toxzic/indextts-colab)

浏览引用本论文的24个模型（https://huggingface.co/models?other=arxiv:2502.05512）## 引用本论文的数据集 1

echodict/index-tts (https://huggingface.co/datasets/echodict/index-tts)

引用本论文的空间 40

浏览引用本论文的40个空间（https://huggingface.co/spaces?arxivIds=2502.05512）## 包含本论文的收藏 4

IndexTTS: 一个工业级可控高效的零样本文本转语音系统

论文页面 - IndexTTS：工业级可控高效零样本文本转语音系统

摘要

引用本论文的模型 24

IndexTeam/IndexTTS-2 文本转语音• 更新于1月20日 • 14.8k • 735 (https://huggingface.co/IndexTeam/IndexTTS-2)

IndexTeam/Index-TTS 文本转语音• 更新于2025年4月27日 • 181 • 150 (https://huggingface.co/IndexTeam/Index-TTS)

taraskurtizan/IndexTTS-2 文本转语音• 更新于约12小时前 • 2 (https://huggingface.co/taraskurtizan/IndexTTS-2)

Toxzic/indextts-colab 更新于2025年9月19日 (https://huggingface.co/Toxzic/indextts-colab)

echodict/index-tts (https://huggingface.co/datasets/echodict/index-tts)

引用本论文的空间 40

相似文章

@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS，性能碾压市面所有模型。我没有任何研究背景。上周我 w…

@akshay_pachaar: 这个TTS模型生成语音的速度比人耳听到快167倍。Supertonic 是一款通过ONNX实现跨平台推理的设备端TTS引擎…

WavTTS: 通过直接原始波形建模实现高质量零样本TTS

Aratako/Irodori-TTS-500M-v3

dots.tts 技术报告

提交意见反馈