long-form-audio

#long-form-audio

VibeVoice 技术报告

Papers with Code Trending ↗ · 2025-08-26 缓存

VibeVoice 是微软推出的一款新模型，它利用 Next-Token Diffusion（下一令牌扩散）和一种高度高效的连续语音分词器，生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率，支持长达 90 分钟的多说话人音频生成。

0 人收藏 0 人点赞