long-form-audio

标签

Cards List
#long-form-audio

VibeVoice 技术报告

Papers with Code Trending · 2025-08-26 缓存

VibeVoice 是微软推出的一款新模型,它利用 Next-Token Diffusion(下一令牌扩散)和一种高度高效的连续语音分词器,生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率,支持长达 90 分钟的多说话人音频生成。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈