audio-language-model

#audio-language-model

音频交互模型

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

本文介绍了Audio-Interaction，一种统一的流式音频模型，通过端到端框架将离线任务执行与实时音频指令跟随相结合。它提出了用于感知-决策-响应循环的SoundFlow，并在多个基准测试中评估了其具有竞争力的性能。

0 人收藏 0 人点赞

#audio-language-model

Hugging Face Daily Papers ↗ · 2026-05-22 缓存

StepAudio 2.5 是一个统一的音频-语言模型，通过利用针对任务定制的基于人类反馈的强化学习来优化共享表示，在自动语音识别（ASR）、文本转语音（TTS）和实时口语交互方面取得了最先进的结果。

0 人收藏 0 人点赞