标签
本文提出了一种基于参考的评估协议,用于评估语音到语音AI系统的韵律和节奏,通过匹配人类对话数据提供可解释的行为合理性检查。
介绍了MMEE,一个包含7种语言、34种情感类别、共10,000条话语的多语言多情感强调语料库,并在多种迁移设置下对强调检测模型进行了基准测试,发现多语言训练能显著提升鲁棒性,而单语言模型的零样本迁移能力有限。
一篇关于自动化演讲辅导系统的综述,回顾现有系统,引入一个涵盖发音、重音、韵律、节奏和内容忠实度的五维任务分类法,并指出了标注稀缺、口音公平性和低延迟反馈等开放挑战。
提出了 TextPro-SLM,一种通过处理口语输入使其类似于具备韵律感知能力的文本来最小化模态差距的语音大语言模型,以少量的训练数据实现了强大的副语言理解能力。