标签
SwanVoice 是一种零样本文本转语音模型,专为富有表现力的长文本独白和对话合成而设计,结合了 VAE、流匹配 DiT 和扩散后训练,在丰富度和层次感得分上均优于现有基线模型。
Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。
本文构建了一个包含263,911篇长篇小说的大型数据集,这些故事通过基于TTCW的创造力指标进行了标注,并对Qwen3模型进行微调以生成结构化的评论报告。研究发现,非推理微调优于推理监督微调,后者容易出现解析失败和不相关的重复。