WavTTS: 通过直接原始波形建模实现高质量零样本TTS

Papers with Code Trending 论文

摘要

WavTTS 提出了首个使用流匹配和扩散变换器的原始波形生成式文本转语音模型,其性能可与潜在空间扩散模型相媲美,同时避免了压缩表示导致的信息损失。

最近,基于VAE潜在表示或梅尔频谱的扩散模型已成为零样本TTS的主流范式。虽然这些压缩表示提高了生成效率,但它们不可避免地遭受信息丢失和非端到端训练的问题。理论上,直接对原始波形进行建模可以避免这些问题;然而,这一方向仍未充分探索,且由于音频信号的序列长度极长,通常被认为难以实现。为了克服这一难题,我们提出了WavTTS,这是第一个原始波形生成式TTS模型,显著缩小了与潜在空间生成模型的差距。基于流匹配和扩散变换器(DiT),WavTTS通过简单的分块化策略直接对语音波形进行建模,同时集成多尺度梅尔频谱监督,在训练过程中提供感知指导。此外,我们研究了预测目标和噪声调度对波形扩散的影响,并设计了一种有效的调度方案以提升生成质量。在开源基准上的评估表明,WavTTS的性能接近当前最先进的潜在生成式零样本TTS模型,同时大幅优于以往的端到端语音生成模型。我们的研究结果证明了直接在波形空间中扩展基于扩散的TTS的可行性,为端到端语音生成开辟了新方向。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:40

论文页面 - WavTTS:通过直接原始波形建模实现高质量零样本文本转语音

来源:https://huggingface.co/papers/2606.03455 作者:

摘要

最近,操作于VAE隐空间 (https://huggingface.co/papers?q=VAE%20latents) 或梅尔频谱图 (https://huggingface.co/papers?q=mel-spectrograms) 上的扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 已成为零样本TTS (https://huggingface.co/papers?q=zero-shot%20TTS) 的主导范式。尽管这些压缩表示提高了生成效率,但它们不可避免地存在信息丢失和非端到端训练的问题。理论上,直接建模原始波形 (https://huggingface.co/papers?q=raw%20waveforms) 可以规避这些问题;然而,由于音频信号的序列长度极长,这一方向仍然未被充分探索,并且通常被认为困难。为了克服这一点,我们提出了WavTTS,这是第一个原始波形生成式TTS模型,它显著缩小了与隐空间生成模型的差距。WavTTS基于流匹配 (https://huggingface.co/papers?q=flow%20matching) 与扩散变换器 (https://huggingface.co/papers?q=Diffusion%20Transformer) (DiT) 构建,通过简单的分块策略 (https://huggingface.co/papers?q=patchification%20strategy) 直接建模语音波形,同时集成多尺度梅尔频谱图监督 (https://huggingface.co/papers?q=multi-scale%20mel-spectrogram%20supervision) 以在训练过程中提供感知引导。此外,我们研究了预测目标 (https://huggingface.co/papers?q=prediction%20targets) 和噪声调度 (https://huggingface.co/papers?q=noise%20scheduling) 在波形扩散中的影响,并开发了一种有效的调度设计以提高生成质量。在开源基准上的评估表明,WavTTS的性能接近当前最先进的隐空间生成式零样本TTS (https://huggingface.co/papers?q=zero-shot%20TTS) 模型,同时显著优于先前的端到端语音生成 (https://huggingface.co/papers?q=end-to-end%20speech%20generation) 模型。我们的发现证明了在波形空间中直接扩展基于扩散的TTS的可行性,为端到端语音生成 (https://huggingface.co/papers?q=end-to-end%20speech%20generation) 开辟了新的方向。

查看arXiv页面 (https://arxiv.org/abs/2606.03455) 查看PDF (https://arxiv.org/pdf/2606.03455) 项目页面 (https://wavtts.github.io/) GitHub36 (https://github.com/cwx-worst-one/WavTTS) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03455)

在您的代理中获取此论文:

hf papers read 2606\.03455

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 2

worstchan/WavTTS 文本转语音• 约24小时前更新 • 3 (https://huggingface.co/worstchan/WavTTS)

drbaph/WavTTS 文本转语音• 约2小时前更新 • 2 (https://huggingface.co/drbaph/WavTTS)

引用此论文的数据集 0

无数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2606.03455以从此页面链接。

引用此论文的空间 0

无空间链接此论文

在空间的README.md中引用arxiv.org/abs/2606.03455以从此页面链接。

包含此论文的收藏 0

无收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection)以从此页面链接。

相似文章

WavFlow:波形空间中的音频生成

Hugging Face Daily Papers

WavFlow 通过波形分块和振幅提升,直接在原始波形空间中生成高保真音频,在视频到音频和文本到音频基准测试中取得了具有竞争力的性能,无需中间潜在表示。

WavFlow 直接在波形空间中生成音频(GitHub 仓库)

TLDR AI

WavFlow 是 Meta AI 提出的一种新方法,它直接从视频和文本输入在原始波形空间中生成同步、高保真的音频,绕过了潜在压缩。在 VGGSound 和 AudioCaps 基准测试中,其性能与基于潜在空间的方法相当。

基于自回归扩散变换器的流式同步空间音频生成

Hugging Face Daily Papers

SwanSphere 提出了一种统一的流式框架,通过因果自回归扩散变换器和多模态学习策略,从全景视频和文本提示中生成高保真空间音频,在视频到空间音频和文本到空间音频任务中均实现了卓越性能。

Aratako/Irodori-TTS-500M-v3

Hugging Face Models Trending

Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。