标签
Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。
Hugging Face的一名机器人工程师提出将人类面部表情映射到非人形机器人上,以增强表现力,同时避免恐怖谷效应,并计划利用这些数据进行自主肢体语言训练。
WavAlign 提出一种模态感知的自适应后训练方法,利用受限偏好更新与显式锚定,在端到端口语对话模型中同步提升语义质量与语音表现力。