long-form

#long-form

SwanVoice: 面向独白和对话的表现力长文本零样本语音合成

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

SwanVoice 是一种零样本文本转语音模型，专为富有表现力的长文本独白和对话合成而设计，结合了 VAE、流匹配 DiT 和扩散后训练，在丰富度和层次感得分上均优于现有基线模型。

0 人收藏 0 人点赞

#long-form

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

Swanbench-Speech是一个综合基准评测，用于在多样化场景下评估长篇语音生成，采用涵盖声学、语义和表现力的多维度指标，揭示了当前模型的局限性。

0 人收藏 0 人点赞

#long-form

arXiv cs.CL ↗ · 2026-05-21 缓存

本文构建了一个包含263,911篇长篇小说的大型数据集，这些故事通过基于TTCW的创造力指标进行了标注，并对Qwen3模型进行微调以生成结构化的评论报告。研究发现，非推理微调优于推理监督微调，后者容易出现解析失败和不相关的重复。

0 人收藏 0 人点赞