audio-language-model

标签

Cards List
#audio-language-model

音频交互模型

Hugging Face Daily Papers · 2026-06-03 缓存

本文介绍了Audio-Interaction,一种统一的流式音频模型,通过端到端框架将离线任务执行与实时音频指令跟随相结合。它提出了用于感知-决策-响应循环的SoundFlow,并在多个基准测试中评估了其具有竞争力的性能。

0 人收藏 0 人点赞
#audio-language-model

StepAudio 2.5 技术报告

Hugging Face Daily Papers · 2026-05-22 缓存

StepAudio 2.5 是一个统一的音频-语言模型,通过利用针对任务定制的基于人类反馈的强化学习来优化共享表示,在自动语音识别(ASR)、文本转语音(TTS)和实时口语交互方面取得了最先进的结果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈