标签
提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,允许单个自回归LLM持续监听、书写可见文本并实时说话,实现无需架构修改的全双工语音交互。
OmniFlatten 是一种新颖的基于 GPT 的模型,通过一种多阶段后训练技术整合语音和文本,在不改变原始架构的情况下实现实时全双工语音对话。