标签
BayLing-Duplex是一种原生全双工语音语言模型,使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断,实现了高成功率,并相比先前模型提升了回复质量。
Orthrus 是一个双架构框架,结合了自回归大语言模型与扩散模型,通过共享KV缓存和共识机制实现快速并行令牌生成,同时保持精确推理保真度,速度提升最高可达7.8倍。
提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,允许单个自回归LLM持续监听、书写可见文本并实时说话,实现无需架构修改的全双工语音交互。