VibeVoice 技术报告

Papers with Code Trending 2025/08/26 17:09 论文

摘要

VibeVoice 是微软推出的一款新模型，它利用 Next-Token Diffusion（下一令牌扩散）和一种高度高效的连续语音分词器，生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率，支持长达 90 分钟的多说话人音频生成。

本报告介绍了 VibeVoice，这是一款旨在合成多说话人长形式语音的新型模型。该模型采用 Next-Token Diffusion（下一令牌扩散）技术，这是一种通过自回归方式通过扩散生成潜在向量，从而对连续数据进行建模的统一方法。为实现这一目标，我们引入了一种新颖的连续语音分词器。与流行的 Encodec 模型相比，该分词器在保持相当性能的同时，将数据压缩率提高了 80 倍。该分词器在有效保留音频保真度的同时，显著提升了处理长序列的计算效率。因此，VibeVoice 可以在最多 4 个说话人的情况下，合成长达 90 分钟的长形式语音（在 64K 上下文窗口长度内），捕捉真实的对话“氛围”（vibe），并超越了开源和专有的对话模型。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:34

论文页面 - VibeVoice 技术报告

来源: https://huggingface.co/papers/2508.19205 发布于 2025年8月26日

由https://huggingface.co/unilm提交

Li Dong (https://huggingface.co/unilm) 于 2025年8月27日

当日最热论文 #1 (https://huggingface.co/papers/date/2025-08-27) 作者:

摘要

VibeVoice 利用下一标记扩散（next-token diffusion）和一种高效连续的语音分词器，生成长格式多说话人语音，实现了卓越的性能和高保真度。

本报告介绍了 VibeVoice，这是一种新颖的模型，旨在通过采用下一标记扩散（next-token diffusion）来生成具有多个说话人的长格式语音（long-form speech）。下一标记扩散是一种统一建模连续数据的方法，通过自回归生成潜在向量来实现扩散。为此，我们提出了一种新颖的连续语音分词器（continuous speech tokenizer），与流行的 Encodec 模型相比，在保持可比性能的同时，将数据压缩率提高了80倍。该分词器在有效保持音频保真度（audio fidelity）的同时，显著提升了处理长序列的计算效率（computational efficiency）。因此，VibeVoice 可以在最多4个说话人的情况下，合成长达90分钟的长格式语音（在64K上下文窗口长度内），捕捉真实的对话“氛围”（vibe），并超越了开源和专有的对话模型（dialogue models）。

查看 arXiv 页面 (https://arxiv.org/abs/2508.19205)查看 PDF (https://arxiv.org/pdf/2508.19205)项目页面 (https://microsoft.github.io/VibeVoice/)GitHub46.8k (https://github.com/microsoft/VibeVoice)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2508.19205)

在您的 agent 中获取此论文：

hf papers read 2508.19205

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型66

microsoft/VibeVoice-1.5B Text-to-Speech• 3B• 更新于1月22日 • 259k • 2.36k (https://huggingface.co/microsoft/VibeVoice-1.5B)

microsoft/VibeVoice-Realtime-0.5B Text-to-Speech• 1B• 更新于2025年12月12日 • 949k • 1.22k (https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B)

aoi-ot/VibeVoice-Large Text-to-Speech• 9B• 更新于2025年9月25日 • 8.38k • 230 (https://huggingface.co/aoi-ot/VibeVoice-Large)

vibevoice/VibeVoice-7B Text-to-Speech• 9B• 更新于2025年9月5日 • 8.42k • 178 (https://huggingface.co/vibevoice/VibeVoice-7B)

浏览引用此论文的66个模型 (https://huggingface.co/models?other=arxiv:2508.19205)## 引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2508.19205 以从此页面链接。

引用此论文的 Spaces123

包含此论文的收藏集22

浏览包含此论文的22个收藏集 (https://huggingface.co/collections?paper=2508.19205)

VibeVoice 技术报告

论文页面 - VibeVoice 技术报告

摘要

引用此论文的模型66

microsoft/VibeVoice-1.5B Text-to-Speech• 3B• 更新于1月22日 • 259k • 2.36k (https://huggingface.co/microsoft/VibeVoice-1.5B)

microsoft/VibeVoice-Realtime-0.5B Text-to-Speech• 1B• 更新于2025年12月12日 • 949k • 1.22k (https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B)

aoi-ot/VibeVoice-Large Text-to-Speech• 9B• 更新于2025年9月25日 • 8.38k • 230 (https://huggingface.co/aoi-ot/VibeVoice-Large)

vibevoice/VibeVoice-7B Text-to-Speech• 9B• 更新于2025年9月5日 • 8.42k • 178 (https://huggingface.co/vibevoice/VibeVoice-7B)

引用此论文的 Spaces123

包含此论文的收藏集22

相似文章

Qwen3-TTS 技术报告

datawhalechina/easy-vibe

Open Vibe

VibeAround

Vokenization：面向视觉与语言的多模态学习

提交意见反馈