音频交互模型

Hugging Face Daily Papers 论文

摘要

本文介绍了Audio-Interaction,一种统一的流式音频模型,通过端到端框架将离线任务执行与实时音频指令跟随相结合。它提出了用于感知-决策-响应循环的SoundFlow,并在多个基准测试中评估了其具有竞争力的性能。

音频本质上是一种交互模态,然而当前的大型音频语言模型(LALMs)是离线的,而流式音频模型各自只处理单一任务,例如流式语音识别或语音聊天。是时候将它们统一为一个在线LALM:一种通过始终在线的感知-决策-响应循环,实时聆听声音、环境与指令并即时做出反应的模型。我们将此模式正式定义为音频交互模型,并通过Audio-Interaction实现——这是一种统一的流式模型,既保留离线任务执行能力,又增加了在线通用音频指令跟随功能,从对话到完整语音聊天,并根据流语义决定何时响应。为实现这一点,我们提出了SoundFlow框架,该框架通过流式原生数据构建、理解感知训练以及异步低延迟推理,端到端地实例化了感知-决策-响应循环,从而实现稳定的实时交互。我们还构建了StreamAudio-2M,一个包含260万条数据的流式语料库,涵盖7项基本能力和28个子任务,并构建了用于评估主动音频干预的Proactive-Sound-Bench。在8个基准测试中,Audio-Interaction在主流音频任务上保持了有竞争力的性能,同时解锁了离线LALMs无法实现的能力,包括实时语音识别、流式音频指令跟随和主动帮助。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:41

论文页面 - 音频交互模型

来源:https://huggingface.co/papers/2606.05121
作者:

,

,

,

,

,

,

,

,

,

摘要

我们开发了一个统一的流式音频模型,通过一个支持多种音频交互能力的端到端框架,将离线任务执行与实时音频指令遵循结合在一起。

音频本质上是一种交互性模态,但如今的大型音频语言模型(Large Audio Language Models, LALMs)()是离线的,而流式音频模型()各自只处理单一任务,例如流式语音识别或语音聊天。现在是时候将它们统一为一个在线 LALM:一个通过始终在线的感知-决策-响应循环(),实时监听声音、环境与指令,并能即时做出反应的模型。我们将这一机制正式定义为音频交互模型(Audio Interaction Model),并通过 Audio-Interaction 实现它——这是一个统一的流式模型,既保留了离线任务执行能力,又增加了在线通用音频指令遵循功能,从对话到完整语音聊天,并能根据流式语意决定何时回应。为实现这一目标,我们提出了 SoundFlow 框架,该框架以端到端方式实例化了感知-决策-响应循环,覆盖从数据、训练到部署的全流程,具体包括流式原生数据构建()、理解感知训练()以及异步低延迟推理(),从而实现稳定的实时交互。我们进一步构建了 StreamAudio-2M(),一个包含 260 万条数据的流式语料库,涵盖 7 项基本能力和 28 个子任务,以及 Proactive-Sound-Bench(),用于评估主动音频干预能力。在 8 个基准测试中,Audio-Interaction 在主流音频任务上保持了有竞争力的性能,同时解锁了离线 LALM 无法实现的能力,包括实时语音识别、流式音频指令遵循和主动帮助。

查看 arXiv 页面(https://arxiv.org/abs/2606.05121)
查看 PDF(https://arxiv.org/pdf/2606.05121)
项目页面(https://xzf-thu.github.io/Audio-Interaction/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05121)

在您的代理中获取此论文:

hf papers read 2606.05121

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.05121 以从本页面链接到它。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.05121 以从本页面链接到它。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.05121 以从本页面链接到它。

包含此论文的收藏集0

没有包含此论文的收藏集

将本论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接到它。

相似文章

交互模型

Hacker News Top

Thinking Machines AI 宣布推出交互模型的研究预览版,这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面,该模型旨在让人类始终保持在环,同时提供业界领先的智能水平与响应速度。

当视觉为声音代言

Hugging Face Daily Papers

本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。