标签
Fish Audio S2 是一个开源的文本转语音系统,支持多说话人、多轮生成以及指令跟随控制,并由具备低延迟特性的生产级推理引擎提供支持。
VibeVoice 是微软推出的一款新模型,它利用 Next-Token Diffusion(下一令牌扩散)和一种高度高效的连续语音分词器,生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率,支持长达 90 分钟的多说话人音频生成。