音频交互模型
摘要
本文介绍了Audio-Interaction,一种统一的流式音频模型,通过端到端框架将离线任务执行与实时音频指令跟随相结合。它提出了用于感知-决策-响应循环的SoundFlow,并在多个基准测试中评估了其具有竞争力的性能。
查看缓存全文
缓存时间: 2026/06/04 03:41
论文页面 - 音频交互模型
来源:https://huggingface.co/papers/2606.05121
作者:
,
,
,
,
,
,
,
,
,
摘要
我们开发了一个统一的流式音频模型,通过一个支持多种音频交互能力的端到端框架,将离线任务执行与实时音频指令遵循结合在一起。
音频本质上是一种交互性模态,但如今的大型音频语言模型(Large Audio Language Models, LALMs)()是离线的,而流式音频模型()各自只处理单一任务,例如流式语音识别或语音聊天。现在是时候将它们统一为一个在线 LALM:一个通过始终在线的感知-决策-响应循环(),实时监听声音、环境与指令,并能即时做出反应的模型。我们将这一机制正式定义为音频交互模型(Audio Interaction Model),并通过 Audio-Interaction 实现它——这是一个统一的流式模型,既保留了离线任务执行能力,又增加了在线通用音频指令遵循功能,从对话到完整语音聊天,并能根据流式语意决定何时回应。为实现这一目标,我们提出了 SoundFlow 框架,该框架以端到端方式实例化了感知-决策-响应循环,覆盖从数据、训练到部署的全流程,具体包括流式原生数据构建()、理解感知训练()以及异步低延迟推理(),从而实现稳定的实时交互。我们进一步构建了 StreamAudio-2M(),一个包含 260 万条数据的流式语料库,涵盖 7 项基本能力和 28 个子任务,以及 Proactive-Sound-Bench(),用于评估主动音频干预能力。在 8 个基准测试中,Audio-Interaction 在主流音频任务上保持了有竞争力的性能,同时解锁了离线 LALM 无法实现的能力,包括实时语音识别、流式音频指令遵循和主动帮助。
查看 arXiv 页面(https://arxiv.org/abs/2606.05121)
查看 PDF(https://arxiv.org/pdf/2606.05121)
项目页面(https://xzf-thu.github.io/Audio-Interaction/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05121)
在您的代理中获取此论文:
hf papers read 2606.05121
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.05121 以从本页面链接到它。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.05121 以从本页面链接到它。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.05121 以从本页面链接到它。
包含此论文的收藏集0
没有包含此论文的收藏集
将本论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接到它。
相似文章
OmniInteract:面向实时全模态助手的真实世界流式交互基准测试
OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试,评估在线音视频处理能力,要求具备时间定位和交互式响应。实验表明,当前模型表现不佳,最佳整体 IA-QTF1 分数仅为 0.368。
交互模型
Thinking Machines AI 宣布推出交互模型的研究预览版,这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面,该模型旨在让人类始终保持在环,同时提供业界领先的智能水平与响应速度。
@paulabartabajo_:给AI工程师的建议 如果你正在构建语音智能体,别再连接3个独立模型了,用于音频转文本、文本转音频,或文本转文本……
宣布推出 liquid-audio,这是 Liquid AI 端到端语音转语音 LFM 模型(LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B)的开源仓库,支持交错和顺序生成模式以及微调功能。
当视觉为声音代言
本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。
OpenAI的新语音模型不止于回话
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。