VoxMind:端到端智能体语音对话系统

Hugging Face Daily Papers 论文

摘要

VoxMind 推出具备智能体能力的端到端语音对话系统,通过“先思后言”机制与动态工具管理,将任务完成率从 34.88% 提升到 74.57%,同时保持对话质量。

近期的端到端语音对话模型实现了自然交互。然而,随着用户需求日益复杂,仅靠对话能力的模型往往难以应对。因此,引入智能体能力至关重要:通过调用工具,模型可突破知识边界,更好地解决现实任务。但现有研究多聚焦于核心感知与生成,对工具增强的扩展探索相对有限。为填补这一空白,我们提出 VoxMind——一个为端到端语音对话模型赋予全面智能体能力的集成框架。借助我们自建的 470 小时 AgentChat 数据集,VoxMind 引入“先思后言”机制,让模型将结构化推理内化为规划与回复生成的关键前提。此外,为缓解大规模工具集成带来的延迟瓶颈,我们提出多智能体动态工具管理架构:通过将检索任务异步委派给与主模型推理轨迹对齐的辅助智能体,系统有效将推理延迟与工具集大小解耦。实验结果表明,VoxMind 在智能体性能上显著提升:相比强基线,任务完成率从 34.88% 提升至 74.57%,在语音智能体任务上超越 Gemini-2.5-Pro,同时保持通用对话质量。源代码及数据已开源:https://github.com/MM-Speech/VoxMind
查看原文
查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - VoxMind:端到端智能体口语对话系统

来源:https://huggingface.co/papers/2604.15710

摘要

VoxMind 通过“先思后说”机制与动态工具管理,为口语对话模型注入智能体能力,在保持对话质量的同时显著提升任务完成率。

近期端到端口语对话模型(https://huggingface.co/papers?q=end-to-end%20spoken%20dialogue%20models)实现了自然交互。然而,随着用户需求日益复杂,仅靠对话能力往往难以应对。因此,引入智能体能力(https://huggingface.co/papers?q=agentic%20capabilities)势在必行:借助工具使用(https://huggingface.co/papers?q=tool%20use),模型可突破知识边界,更好地解决现实任务。但现有研究多聚焦于核心感知与生成,对工具增强的扩展探索有限。为此,我们提出 VoxMind,一个集成框架,为端到端口语对话模型(https://huggingface.co/papers?q=end-to-end%20spoken%20dialogue%20models)赋予全面的智能体能力。利用我们精心整理的 470 小时 AgentChat 数据集(https://huggingface.co/papers?q=AgentChat%20dataset),我们引入“先思后说”机制,让模型将结构化推理内化为规划与回复生成的关键前提。此外,为缓解大规模工具集成带来的延迟瓶颈,我们提出多智能体动态工具管理(https://huggingface.co/papers?q=Multi-Agent%20Dynamic%20Tool%20Management)架构。通过将检索任务(https://huggingface.co/papers?q=retrieval%20tasks)异步委派给与主模型推理轨迹对齐的辅助智能体,该系统有效将推理延迟(https://huggingface.co/papers?q=inference%20latency)与工具集规模解耦。实验结果表明,VoxMind 在智能体性能上取得显著提升:相比强基线,任务完成率(https://huggingface.co/papers?q=task%20completion%20rate)从 34.88% 提升至 74.57%,在口语智能体任务上超越 Gemini-2.5-Pro,同时保持通用对话质量(https://huggingface.co/papers?q=conversational%20quality)。源代码与相关数据已开源:https://github.com/MM-Speech/VoxMind。

查看 arXiv 页面(https://arxiv.org/abs/2604.15710)
查看 PDF(https://arxiv.org/pdf/2604.15710)
GitHub21(https://github.com/MM-Speech/VoxMind)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.15710)

在智能体中获取本文:

hf papers read 2604.15710

未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 1

leungtianle/VoxMind 8B • 约 7 小时前更新 • 17 • 1(https://huggingface.co/leungtianle/VoxMind)

引用该论文的数据集 0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.15710 即可在此页面显示。

引用该论文的 Spaces 0

无 Spaces 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2604.15710 即可在此页面显示。

包含该论文的合集 0

无合集包含此论文

新建合集 并将该论文加入,即可在此页面显示。

相似文章

Vox

Product Hunt

Vox 是一款产品,让用户能够与 GitHub Copilot 进行语音对话,提供编程辅助的语音界面。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。