turn-taking

#turn-taking

评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力

arXiv cs.CL ↗ · 18小时前缓存

本文评估了大语言模型（LLMs）和多模态大语言模型在多方会议对话中的收件人检测、话轮转换预测和下一说话人预测能力。结果表明，基于文本的LLMs在下一说话人预测上优于监督模型和人类，而多模态LLMs在其他任务上比纯文本模型有所提升，但表现仍低于人类。

0 人收藏 0 人点赞

#turn-taking

arXiv cs.CL ↗ · 2天前缓存

BayLing-Duplex是一种原生全双工语音语言模型，使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断，实现了高成功率，并相比先前模型提升了回复质量。

0 人收藏 0 人点赞

#turn-taking

arXiv cs.CL ↗ · 2026-05-21 缓存

本文通过模拟两个Moshi模型实例之间的对话，利用CKA测量表征对齐并使用LSTM探针预测话轮边界，分析了全双工语音对话模型中的同步与话轮转换动态。

0 人收藏 0 人点赞

#turn-taking

arXiv cs.CL ↗ · 2026-05-08 缓存

When2Speak是一个合成数据集及流程，用于训练LLM在多方对话中决定何时发言。在该数据集上微调显著改善了话轮转换，强化学习将漏干预率从50%降至约20%。

0 人收藏 0 人点赞