VibeVoice 技术报告

Papers with Code Trending 论文

摘要

VibeVoice 是微软推出的一款新模型,它利用 Next-Token Diffusion(下一令牌扩散)和一种高度高效的连续语音分词器,生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率,支持长达 90 分钟的多说话人音频生成。

本报告介绍了 VibeVoice,这是一款旨在合成多说话人长形式语音的新型模型。该模型采用 Next-Token Diffusion(下一令牌扩散)技术,这是一种通过自回归方式通过扩散生成潜在向量,从而对连续数据进行建模的统一方法。为实现这一目标,我们引入了一种新颖的连续语音分词器。与流行的 Encodec 模型相比,该分词器在保持相当性能的同时,将数据压缩率提高了 80 倍。该分词器在有效保留音频保真度的同时,显著提升了处理长序列的计算效率。因此,VibeVoice 可以在最多 4 个说话人的情况下,合成长达 90 分钟的长形式语音(在 64K 上下文窗口长度内),捕捉真实的对话“氛围”(vibe),并超越了开源和专有的对话模型。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:34

论文页面 - VibeVoice 技术报告

来源: https://huggingface.co/papers/2508.19205 发布于 2025年8月26日

·

由https://huggingface.co/unilm提交

Li Dong (https://huggingface.co/unilm) 于 2025年8月27日

当日最热论文 #1 (https://huggingface.co/papers/date/2025-08-27) 作者:

,

,

,

,

,

,

,

,

,

摘要

VibeVoice 利用下一标记扩散(next-token diffusion)和一种高效连续的语音分词器,生成长格式多说话人语音,实现了卓越的性能和高保真度。

本报告介绍了 VibeVoice,这是一种新颖的模型,旨在通过采用下一标记扩散(next-token diffusion)来生成具有多个说话人的长格式语音(long-form speech)。下一标记扩散是一种统一建模连续数据的方法,通过自回归生成潜在向量来实现扩散。为此,我们提出了一种新颖的连续语音分词器(continuous speech tokenizer),与流行的 Encodec 模型相比,在保持可比性能的同时,将数据压缩率提高了80倍。该分词器在有效保持音频保真度(audio fidelity)的同时,显著提升了处理长序列的计算效率(computational efficiency)。因此,VibeVoice 可以在最多4个说话人的情况下,合成长达90分钟的长格式语音(在64K上下文窗口长度内),捕捉真实的对话“氛围”(vibe),并超越了开源和专有的对话模型(dialogue models)。

查看 arXiv 页面 (https://arxiv.org/abs/2508.19205)查看 PDF (https://arxiv.org/pdf/2508.19205)项目页面 (https://microsoft.github.io/VibeVoice/)GitHub46.8k (https://github.com/microsoft/VibeVoice)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2508.19205)

在您的 agent 中获取此论文:

hf papers read 2508.19205

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型66

microsoft/VibeVoice-1.5B Text-to-Speech• 3B• 更新于1月22日 • 259k • 2.36k (https://huggingface.co/microsoft/VibeVoice-1.5B)

microsoft/VibeVoice-Realtime-0.5B Text-to-Speech• 1B• 更新于2025年12月12日 • 949k • 1.22k (https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B)

aoi-ot/VibeVoice-Large Text-to-Speech• 9B• 更新于2025年9月25日 • 8.38k • 230 (https://huggingface.co/aoi-ot/VibeVoice-Large)

vibevoice/VibeVoice-7B Text-to-Speech• 9B• 更新于2025年9月5日 • 8.42k • 178 (https://huggingface.co/vibevoice/VibeVoice-7B)

浏览引用此论文的66个模型 (https://huggingface.co/models?other=arxiv:2508.19205)## 引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2508.19205 以从此页面链接。

引用此论文的 Spaces123

包含此论文的收藏集22

浏览包含此论文的22个收藏集 (https://huggingface.co/collections?paper=2508.19205)

相似文章

Qwen3-TTS 技术报告

Papers with Code Trending

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型,具备语音克隆和可控生成能力,采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

datawhalechina/easy-vibe

GitHub Trending (daily)

easy-vibe 是由 Datawhale China 推出的一款开源、面向初学者的学习资源与教程框架,旨在通过自然语言(vibe coding)引导用户构建 AI 驱动的应用程序。它包含互动教程、学习路线图以及多语言支持。

Open Vibe

Product Hunt

Open Vibe 是一款新产品,旨在帮助开发者在集成 AI 的同时顺利发布 SaaS 应用,避免常见的开发瓶颈。

VibeAround

Product Hunt

VibeAround 是一款本地 AI 编程助手,用户可通过任意即时通讯应用或网页浏览器与之对话。

Vokenization:面向视觉与语言的多模态学习

ML at Berkeley

本文介绍了“Vokenization”,这是一种多模态学习技术,通过利用弱监督将视觉数据与语言标记联系起来,从而架起计算机视觉与自然语言处理之间的桥梁。文章将其与 GPT-3 和 BERT 等纯文本模型进行了对比,强调了视觉定位如何提升语言理解能力。