WavTTS: 通过直接原始波形建模实现高质量零样本TTS
摘要
WavTTS 提出了首个使用流匹配和扩散变换器的原始波形生成式文本转语音模型,其性能可与潜在空间扩散模型相媲美,同时避免了压缩表示导致的信息损失。
查看缓存全文
缓存时间: 2026/06/04 03:40
论文页面 - WavTTS:通过直接原始波形建模实现高质量零样本文本转语音
来源:https://huggingface.co/papers/2606.03455 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
最近,操作于VAE隐空间 (https://huggingface.co/papers?q=VAE%20latents) 或梅尔频谱图 (https://huggingface.co/papers?q=mel-spectrograms) 上的扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 已成为零样本TTS (https://huggingface.co/papers?q=zero-shot%20TTS) 的主导范式。尽管这些压缩表示提高了生成效率,但它们不可避免地存在信息丢失和非端到端训练的问题。理论上,直接建模原始波形 (https://huggingface.co/papers?q=raw%20waveforms) 可以规避这些问题;然而,由于音频信号的序列长度极长,这一方向仍然未被充分探索,并且通常被认为困难。为了克服这一点,我们提出了WavTTS,这是第一个原始波形生成式TTS模型,它显著缩小了与隐空间生成模型的差距。WavTTS基于流匹配 (https://huggingface.co/papers?q=flow%20matching) 与扩散变换器 (https://huggingface.co/papers?q=Diffusion%20Transformer) (DiT) 构建,通过简单的分块策略 (https://huggingface.co/papers?q=patchification%20strategy) 直接建模语音波形,同时集成多尺度梅尔频谱图监督 (https://huggingface.co/papers?q=multi-scale%20mel-spectrogram%20supervision) 以在训练过程中提供感知引导。此外,我们研究了预测目标 (https://huggingface.co/papers?q=prediction%20targets) 和噪声调度 (https://huggingface.co/papers?q=noise%20scheduling) 在波形扩散中的影响,并开发了一种有效的调度设计以提高生成质量。在开源基准上的评估表明,WavTTS的性能接近当前最先进的隐空间生成式零样本TTS (https://huggingface.co/papers?q=zero-shot%20TTS) 模型,同时显著优于先前的端到端语音生成 (https://huggingface.co/papers?q=end-to-end%20speech%20generation) 模型。我们的发现证明了在波形空间中直接扩展基于扩散的TTS的可行性,为端到端语音生成 (https://huggingface.co/papers?q=end-to-end%20speech%20generation) 开辟了新的方向。
查看arXiv页面 (https://arxiv.org/abs/2606.03455) 查看PDF (https://arxiv.org/pdf/2606.03455) 项目页面 (https://wavtts.github.io/) GitHub36 (https://github.com/cwx-worst-one/WavTTS) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03455)
在您的代理中获取此论文:
hf papers read 2606\.03455
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 2
worstchan/WavTTS 文本转语音• 约24小时前更新 • 3 (https://huggingface.co/worstchan/WavTTS)
drbaph/WavTTS 文本转语音• 约2小时前更新 • 2 (https://huggingface.co/drbaph/WavTTS)
引用此论文的数据集 0
无数据集链接此论文
在数据集的README.md中引用arxiv.org/abs/2606.03455以从此页面链接。
引用此论文的空间 0
无空间链接此论文
在空间的README.md中引用arxiv.org/abs/2606.03455以从此页面链接。
包含此论文的收藏 0
无收藏包含此论文
将此论文添加到一个收藏 (https://huggingface.co/new-collection)以从此页面链接。
相似文章
WavFlow:波形空间中的音频生成
WavFlow 通过波形分块和振幅提升,直接在原始波形空间中生成高保真音频,在视频到音频和文本到音频基准测试中取得了具有竞争力的性能,无需中间潜在表示。
WavFlow 直接在波形空间中生成音频(GitHub 仓库)
WavFlow 是 Meta AI 提出的一种新方法,它直接从视频和文本输入在原始波形空间中生成同步、高保真的音频,绕过了潜在压缩。在 VGGSound 和 AudioCaps 基准测试中,其性能与基于潜在空间的方法相当。
SwanVoice: 面向独白和对话的表现力长文本零样本语音合成
SwanVoice 是一种零样本文本转语音模型,专为富有表现力的长文本独白和对话合成而设计,结合了 VAE、流匹配 DiT 和扩散后训练,在丰富度和层次感得分上均优于现有基线模型。
基于自回归扩散变换器的流式同步空间音频生成
SwanSphere 提出了一种统一的流式框架,通过因果自回归扩散变换器和多模态学习策略,从全景视频和文本提示中生成高保真空间音频,在视频到空间音频和文本到空间音频任务中均实现了卓越性能。
Aratako/Irodori-TTS-500M-v3
Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。