标签
本文介绍了Audio-Interaction,一种统一的流式音频模型,通过端到端框架将离线任务执行与实时音频指令跟随相结合。它提出了用于感知-决策-响应循环的SoundFlow,并在多个基准测试中评估了其具有竞争力的性能。
StepAudio 2.5 是一个统一的音频-语言模型,通过利用针对任务定制的基于人类反馈的强化学习来优化共享表示,在自动语音识别(ASR)、文本转语音(TTS)和实时口语交互方面取得了最先进的结果。