标签
TurnNat是一种基于似然的框架,用于自动评估双人对话中的轮流发言自然性,它使用在自然对话上训练的因果轮流发言预测模型,通过负对数似然来测量时间异常性。
BayLing-Duplex是一种原生全双工语音语言模型,使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断,实现了高成功率,并相比先前模型提升了回复质量。
本文识别了全双工语音语言模型中的"状态惯性",即在用户打断时,模型的内部预测焦点滞后,并提出了一种无需训练的激活引导方法来改善打断处理。
Kyutai Labs 发布了一篇新论文,使用强化学习对语音模型(Moshi 和 PersonaPlex)进行后训练,以实现更像人类的交互,包括何时回应、等待或发出倾听提示。
对AI语音模型中半双工与全双工架构的分析,讨论了重叠、反馈和打断等关键特性,这些特性使语音助手听起来很机械。
Raon-Speech是一个9B参数的语音语言模型,支持英语和韩语的理解、回答和生成,并具有全双工扩展Raon-SpeechChat,可实现自然的实时对话。它在42个基准测试上取得了强劲的性能,并且完全开源。
本文通过模拟两个Moshi模型实例之间的对话,利用CKA测量表征对齐并使用LSTM探针预测话轮边界,分析了全双工语音对话模型中的同步与话轮转换动态。
Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5,这是一个 9B 参数的全双工全模态模型,采用 Omni-Flow 框架,支持连续、时间对齐的实时视频和语音交互,超越了之前的模型,并以开源形式提供。
Mira Murati 团队展示了全新交互模型预览版,该模型从头训练,原生支持全双工实时音视频对话、即时打断、多语言翻译及动态多任务处理。演示验证了其在低延迟流式交互、多模态感知与并发任务执行方面的核心能力。
EchoChain 是一项全新基准测试,旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式(上下文惯性、中断遗忘、目标偏移),结果表明,在当前评估的实时语音模型中,无一系统的通过率突破 50%。
MoshiRAG 将紧凑的全双工语音语言模型与异步检索增强生成相结合,在保持实时交互性的同时提高事实准确性。该方法利用对话中自然的时空间隙来检索外部知识,而不会打断对话的自然流程。
MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准,解决轮转边界模糊和上下文不一致等挑战,同时评估对话特征、对话质量、指令遵循和安全性。