VoxMind：端到端智能体语音对话系统

Hugging Face Daily Papers 2026/04/17 00:00 论文

摘要

VoxMind 推出具备智能体能力的端到端语音对话系统，通过“先思后言”机制与动态工具管理，将任务完成率从 34.88% 提升到 74.57%，同时保持对话质量。

近期的端到端语音对话模型实现了自然交互。然而，随着用户需求日益复杂，仅靠对话能力的模型往往难以应对。因此，引入智能体能力至关重要：通过调用工具，模型可突破知识边界，更好地解决现实任务。但现有研究多聚焦于核心感知与生成，对工具增强的扩展探索相对有限。为填补这一空白，我们提出 VoxMind——一个为端到端语音对话模型赋予全面智能体能力的集成框架。借助我们自建的 470 小时 AgentChat 数据集，VoxMind 引入“先思后言”机制，让模型将结构化推理内化为规划与回复生成的关键前提。此外，为缓解大规模工具集成带来的延迟瓶颈，我们提出多智能体动态工具管理架构：通过将检索任务异步委派给与主模型推理轨迹对齐的辅助智能体，系统有效将推理延迟与工具集大小解耦。实验结果表明，VoxMind 在智能体性能上显著提升：相比强基线，任务完成率从 34.88% 提升至 74.57%，在语音智能体任务上超越 Gemini-2.5-Pro，同时保持通用对话质量。源代码及数据已开源：https://github.com/MM-Speech/VoxMind

查看原文

查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - VoxMind：端到端智能体口语对话系统

来源：https://huggingface.co/papers/2604.15710

摘要

VoxMind 通过“先思后说”机制与动态工具管理，为口语对话模型注入智能体能力，在保持对话质量的同时显著提升任务完成率。

近期端到端口语对话模型（https://huggingface.co/papers?q=end-to-end%20spoken%20dialogue%20models）实现了自然交互。然而，随着用户需求日益复杂，仅靠对话能力往往难以应对。因此，引入智能体能力（https://huggingface.co/papers?q=agentic%20capabilities）势在必行：借助工具使用（https://huggingface.co/papers?q=tool%20use），模型可突破知识边界，更好地解决现实任务。但现有研究多聚焦于核心感知与生成，对工具增强的扩展探索有限。为此，我们提出 VoxMind，一个集成框架，为端到端口语对话模型（https://huggingface.co/papers?q=end-to-end%20spoken%20dialogue%20models）赋予全面的智能体能力。利用我们精心整理的 470 小时 AgentChat 数据集（https://huggingface.co/papers?q=AgentChat%20dataset），我们引入“先思后说”机制，让模型将结构化推理内化为规划与回复生成的关键前提。此外，为缓解大规模工具集成带来的延迟瓶颈，我们提出多智能体动态工具管理（https://huggingface.co/papers?q=Multi-Agent%20Dynamic%20Tool%20Management）架构。通过将检索任务（https://huggingface.co/papers?q=retrieval%20tasks）异步委派给与主模型推理轨迹对齐的辅助智能体，该系统有效将推理延迟（https://huggingface.co/papers?q=inference%20latency）与工具集规模解耦。实验结果表明，VoxMind 在智能体性能上取得显著提升：相比强基线，任务完成率（https://huggingface.co/papers?q=task%20completion%20rate）从 34.88% 提升至 74.57%，在口语智能体任务上超越 Gemini-2.5-Pro，同时保持通用对话质量（https://huggingface.co/papers?q=conversational%20quality）。源代码与相关数据已开源：https://github.com/MM-Speech/VoxMind。

查看 arXiv 页面（https://arxiv.org/abs/2604.15710）
查看 PDF（https://arxiv.org/pdf/2604.15710）
GitHub21（https://github.com/MM-Speech/VoxMind）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.15710）

在智能体中获取本文：

hf papers read 2604.15710

未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 1

leungtianle/VoxMind 8B • 约 7 小时前更新 • 17 • 1（https://huggingface.co/leungtianle/VoxMind）

引用该论文的数据集 0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.15710 即可在此页面显示。

引用该论文的 Spaces 0

无 Spaces 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2604.15710 即可在此页面显示。

包含该论文的合集 0

无合集包含此论文

新建合集并将该论文加入，即可在此页面显示。

VoxMind：端到端智能体语音对话系统

论文页面 - VoxMind：端到端智能体口语对话系统

摘要

引用该论文的模型 1

leungtianle/VoxMind 8B • 约 7 小时前更新 • 17 • 1（https://huggingface.co/leungtianle/VoxMind）

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的合集 0

相似文章

边说话边思考：面向响应式智能对话语音代理的推理时知识迁移

Vox

OpenAI的新语音模型不止于回话

WavAlign：通过自适应混合后训练提升口语对话模型的智能与表现力

@LangChain: 在真实对话中，决定何时开口与决定说什么需要几乎同等的脑力。语音代理…

提交意见反馈