标签
本文评估了大语言模型(LLMs)和多模态大语言模型在多方会议对话中的收件人检测、话轮转换预测和下一说话人预测能力。结果表明,基于文本的LLMs在下一说话人预测上优于监督模型和人类,而多模态LLMs在其他任务上比纯文本模型有所提升,但表现仍低于人类。
BayLing-Duplex是一种原生全双工语音语言模型,使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断,实现了高成功率,并相比先前模型提升了回复质量。
本文通过模拟两个Moshi模型实例之间的对话,利用CKA测量表征对齐并使用LSTM探针预测话轮边界,分析了全双工语音对话模型中的同步与话轮转换动态。
When2Speak是一个合成数据集及流程,用于训练LLM在多方对话中决定何时发言。在该数据集上微调显著改善了话轮转换,强化学习将漏干预率从50%降至约20%。