标签
dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型,基于多语言数据进行训练,在 Seed-TTS-Eval 等基准测试上取得了最先进的性能,并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。
ElevenLabs 发布了 Dubbing v2,这是一款 AI 配音模型,通过直接基于原始音频进行条件处理,能够在 90 多种语言中保留原始说话者的情感、语调和表演,提供广播级品质的配音,而成本仅为传统方式的一小部分。
Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。
This paper introduces InterRS, a method for real-time speech generation that interleaves reasoning steps during natural pauses in speech, achieving better performance on math and logic benchmarks while maintaining fluent and instant responses.
Scenema AI 发布了 Scenema Audio,一个开源的基于扩散模型的零样本富有表现力的语音克隆与语音生成模型,将情感表现与声音身份分离,使任何声音都能演绎任何情感。
VITA-QinYu 是一个具有表现力的端到端口语语言模型,支持角色扮演和唱歌功能。该模型在 15.8 万小时的数据集上进行训练,在表现力和对话准确性方面均优于同类模型。
Scenema Audio 是一种零样本表现性语音克隆和语音生成模型,能够根据文本提示生成带有情感曲线、节奏和呼吸控制的语音。该模型基于音频扩散变换器,支持多语言生成、从10-20秒参考音频进行语音克隆,以及包含环境效果的场景感知音频。
MOSS-TTS-Nano是一个开源的多语言语音生成模型,仅0.1B参数,专为实时TTS设计,可直接在CPU上运行而无需GPU。由OpenMOSS团队和MOSI.AI发布,它支持简单的本地部署,用于Web服务和产品集成。