标签
本文揭示了交错式语音-文本语言模型在中间层隐式地将语音转录为文本,然后在文本空间中进行预测,再转换回语音,揭示了内部模态交互机制。
ParaBridge是一种基于策略的自蒸馏方法,旨在弥合语音语言模型中副语言感知与对话行为之间的差距,在不依赖外部奖励的情况下显著提升安全性和共情能力。
本文研究了在文本语言模型中学到的事实回忆机制是否会迁移到多模态语音语言模型中的语音模态。通过对SpiritLM进行因果中介分析,发现这些机制仅部分迁移,凸显了文本与语音处理之间的差异。
GitHub 上的 Awesome-SpeechLM-Survey 仓库系统整理了语音语言模型的研究脉络,包括分类框架、代表模型、训练数据集和评测基准,是了解该领域的知识地图。
MoshiRAG 将紧凑的全双工语音语言模型与异步检索增强生成相结合,在保持实时交互性的同时提高事实准确性。该方法利用对话中自然的时空间隙来检索外部知识,而不会打断对话的自然流程。
MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准,解决轮转边界模糊和上下文不一致等挑战,同时评估对话特征、对话质量、指令遵循和安全性。