音频交互模型

Hugging Face Daily Papers 2026/06/03 00:00 论文

摘要

本文介绍了Audio-Interaction，一种统一的流式音频模型，通过端到端框架将离线任务执行与实时音频指令跟随相结合。它提出了用于感知-决策-响应循环的SoundFlow，并在多个基准测试中评估了其具有竞争力的性能。

音频本质上是一种交互模态，然而当前的大型音频语言模型（LALMs）是离线的，而流式音频模型各自只处理单一任务，例如流式语音识别或语音聊天。是时候将它们统一为一个在线LALM：一种通过始终在线的感知-决策-响应循环，实时聆听声音、环境与指令并即时做出反应的模型。我们将此模式正式定义为音频交互模型，并通过Audio-Interaction实现——这是一种统一的流式模型，既保留离线任务执行能力，又增加了在线通用音频指令跟随功能，从对话到完整语音聊天，并根据流语义决定何时响应。为实现这一点，我们提出了SoundFlow框架，该框架通过流式原生数据构建、理解感知训练以及异步低延迟推理，端到端地实例化了感知-决策-响应循环，从而实现稳定的实时交互。我们还构建了StreamAudio-2M，一个包含260万条数据的流式语料库，涵盖7项基本能力和28个子任务，并构建了用于评估主动音频干预的Proactive-Sound-Bench。在8个基准测试中，Audio-Interaction在主流音频任务上保持了有竞争力的性能，同时解锁了离线LALMs无法实现的能力，包括实时语音识别、流式音频指令跟随和主动帮助。

查看原文

查看缓存全文

缓存时间: 2026/06/04 03:41

论文页面 - 音频交互模型

来源：https://huggingface.co/papers/2606.05121
作者：

摘要

我们开发了一个统一的流式音频模型，通过一个支持多种音频交互能力的端到端框架，将离线任务执行与实时音频指令遵循结合在一起。

音频本质上是一种交互性模态，但如今的大型音频语言模型（Large Audio Language Models, LALMs）（）是离线的，而流式音频模型（）各自只处理单一任务，例如流式语音识别或语音聊天。现在是时候将它们统一为一个在线 LALM：一个通过始终在线的感知-决策-响应循环（），实时监听声音、环境与指令，并能即时做出反应的模型。我们将这一机制正式定义为音频交互模型（Audio Interaction Model），并通过 Audio-Interaction 实现它——这是一个统一的流式模型，既保留了离线任务执行能力，又增加了在线通用音频指令遵循功能，从对话到完整语音聊天，并能根据流式语意决定何时回应。为实现这一目标，我们提出了 SoundFlow 框架，该框架以端到端方式实例化了感知-决策-响应循环，覆盖从数据、训练到部署的全流程，具体包括流式原生数据构建（）、理解感知训练（）以及异步低延迟推理（），从而实现稳定的实时交互。我们进一步构建了 StreamAudio-2M（），一个包含 260 万条数据的流式语料库，涵盖 7 项基本能力和 28 个子任务，以及 Proactive-Sound-Bench（），用于评估主动音频干预能力。在 8 个基准测试中，Audio-Interaction 在主流音频任务上保持了有竞争力的性能，同时解锁了离线 LALM 无法实现的能力，包括实时语音识别、流式音频指令遵循和主动帮助。

查看 arXiv 页面（https://arxiv.org/abs/2606.05121）
查看 PDF（https://arxiv.org/pdf/2606.05121）
项目页面（https://xzf-thu.github.io/Audio-Interaction/）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.05121）

在您的代理中获取此论文：

hf papers read 2606.05121

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.05121 以从本页面链接到它。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.05121 以从本页面链接到它。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.05121 以从本页面链接到它。

包含此论文的收藏集0

没有包含此论文的收藏集

将本论文添加到收藏集（https://huggingface.co/new-collection）以从本页面链接到它。

音频交互模型

论文页面 - 音频交互模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

OmniInteract：面向实时全模态助手的真实世界流式交互基准测试

交互模型

@paulabartabajo_：给AI工程师的建议如果你正在构建语音智能体，别再连接3个独立模型了，用于音频转文本、文本转音频，或文本转文本……

当视觉为声音代言

OpenAI的新语音模型不止于回话

提交意见反馈

论文页面 - 音频交互模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

OmniInteract：面向实时全模态助手的真实世界流式交互基准测试

交互模型

@paulabartabajo_：给AI工程师的建议 如果你正在构建语音智能体，别再连接3个独立模型了，用于音频转文本、文本转音频，或文本转文本……

当视觉为声音代言

OpenAI的新语音模型不止于回话

提交意见反馈

@paulabartabajo_：给AI工程师的建议如果你正在构建语音智能体，别再连接3个独立模型了，用于音频转文本、文本转音频，或文本转文本……