标签
NielsRogge 将一篇介绍 Moshi 全双工语音模型的博客作为项目页面添加到了 Papers With Code,旨在让更多人了解这一先进架构。
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。