VibeVoice 技术报告
摘要
VibeVoice 是微软推出的一款新模型,它利用 Next-Token Diffusion(下一令牌扩散)和一种高度高效的连续语音分词器,生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率,支持长达 90 分钟的多说话人音频生成。
查看缓存全文
缓存时间: 2026/05/08 08:34
论文页面 - VibeVoice 技术报告
来源: https://huggingface.co/papers/2508.19205 发布于 2025年8月26日
·
由https://huggingface.co/unilm提交
Li Dong (https://huggingface.co/unilm) 于 2025年8月27日
当日最热论文 #1 (https://huggingface.co/papers/date/2025-08-27) 作者:
,
,
,
,
,
,
,
,
,
摘要
VibeVoice 利用下一标记扩散(next-token diffusion)和一种高效连续的语音分词器,生成长格式多说话人语音,实现了卓越的性能和高保真度。
本报告介绍了 VibeVoice,这是一种新颖的模型,旨在通过采用下一标记扩散(next-token diffusion)来生成具有多个说话人的长格式语音(long-form speech)。下一标记扩散是一种统一建模连续数据的方法,通过自回归生成潜在向量来实现扩散。为此,我们提出了一种新颖的连续语音分词器(continuous speech tokenizer),与流行的 Encodec 模型相比,在保持可比性能的同时,将数据压缩率提高了80倍。该分词器在有效保持音频保真度(audio fidelity)的同时,显著提升了处理长序列的计算效率(computational efficiency)。因此,VibeVoice 可以在最多4个说话人的情况下,合成长达90分钟的长格式语音(在64K上下文窗口长度内),捕捉真实的对话“氛围”(vibe),并超越了开源和专有的对话模型(dialogue models)。
查看 arXiv 页面 (https://arxiv.org/abs/2508.19205)查看 PDF (https://arxiv.org/pdf/2508.19205)项目页面 (https://microsoft.github.io/VibeVoice/)GitHub46.8k (https://github.com/microsoft/VibeVoice)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2508.19205)
在您的 agent 中获取此论文:
hf papers read 2508.19205
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型66
microsoft/VibeVoice-1.5B Text-to-Speech• 3B• 更新于1月22日 • 259k • 2.36k (https://huggingface.co/microsoft/VibeVoice-1.5B)
microsoft/VibeVoice-Realtime-0.5B Text-to-Speech• 1B• 更新于2025年12月12日 • 949k • 1.22k (https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B)
aoi-ot/VibeVoice-Large Text-to-Speech• 9B• 更新于2025年9月25日 • 8.38k • 230 (https://huggingface.co/aoi-ot/VibeVoice-Large)
vibevoice/VibeVoice-7B Text-to-Speech• 9B• 更新于2025年9月5日 • 8.42k • 178 (https://huggingface.co/vibevoice/VibeVoice-7B)
浏览引用此论文的66个模型 (https://huggingface.co/models?other=arxiv:2508.19205)## 引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2508.19205 以从此页面链接。
引用此论文的 Spaces123
包含此论文的收藏集22
浏览包含此论文的22个收藏集 (https://huggingface.co/collections?paper=2508.19205)
相似文章
Qwen3-TTS 技术报告
Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型,具备语音克隆和可控生成能力,采用双轨 LM 架构和专用分词器以实现低延迟流式处理。
datawhalechina/easy-vibe
easy-vibe 是由 Datawhale China 推出的一款开源、面向初学者的学习资源与教程框架,旨在通过自然语言(vibe coding)引导用户构建 AI 驱动的应用程序。它包含互动教程、学习路线图以及多语言支持。
Open Vibe
Open Vibe 是一款新产品,旨在帮助开发者在集成 AI 的同时顺利发布 SaaS 应用,避免常见的开发瓶颈。
VibeAround
VibeAround 是一款本地 AI 编程助手,用户可通过任意即时通讯应用或网页浏览器与之对话。
Vokenization:面向视觉与语言的多模态学习
本文介绍了“Vokenization”,这是一种多模态学习技术,通过利用弱监督将视觉数据与语言标记联系起来,从而架起计算机视觉与自然语言处理之间的桥梁。文章将其与 GPT-3 和 BERT 等纯文本模型进行了对比,强调了视觉定位如何提升语言理解能力。