VoxMind:端到端智能体语音对话系统
摘要
VoxMind 推出具备智能体能力的端到端语音对话系统,通过“先思后言”机制与动态工具管理,将任务完成率从 34.88% 提升到 74.57%,同时保持对话质量。
查看缓存全文
缓存时间: 2026/04/21 15:38
论文页面 - VoxMind:端到端智能体口语对话系统
来源:https://huggingface.co/papers/2604.15710
摘要
VoxMind 通过“先思后说”机制与动态工具管理,为口语对话模型注入智能体能力,在保持对话质量的同时显著提升任务完成率。
近期端到端口语对话模型(https://huggingface.co/papers?q=end-to-end%20spoken%20dialogue%20models)实现了自然交互。然而,随着用户需求日益复杂,仅靠对话能力往往难以应对。因此,引入智能体能力(https://huggingface.co/papers?q=agentic%20capabilities)势在必行:借助工具使用(https://huggingface.co/papers?q=tool%20use),模型可突破知识边界,更好地解决现实任务。但现有研究多聚焦于核心感知与生成,对工具增强的扩展探索有限。为此,我们提出 VoxMind,一个集成框架,为端到端口语对话模型(https://huggingface.co/papers?q=end-to-end%20spoken%20dialogue%20models)赋予全面的智能体能力。利用我们精心整理的 470 小时 AgentChat 数据集(https://huggingface.co/papers?q=AgentChat%20dataset),我们引入“先思后说”机制,让模型将结构化推理内化为规划与回复生成的关键前提。此外,为缓解大规模工具集成带来的延迟瓶颈,我们提出多智能体动态工具管理(https://huggingface.co/papers?q=Multi-Agent%20Dynamic%20Tool%20Management)架构。通过将检索任务(https://huggingface.co/papers?q=retrieval%20tasks)异步委派给与主模型推理轨迹对齐的辅助智能体,该系统有效将推理延迟(https://huggingface.co/papers?q=inference%20latency)与工具集规模解耦。实验结果表明,VoxMind 在智能体性能上取得显著提升:相比强基线,任务完成率(https://huggingface.co/papers?q=task%20completion%20rate)从 34.88% 提升至 74.57%,在口语智能体任务上超越 Gemini-2.5-Pro,同时保持通用对话质量(https://huggingface.co/papers?q=conversational%20quality)。源代码与相关数据已开源:https://github.com/MM-Speech/VoxMind。
查看 arXiv 页面(https://arxiv.org/abs/2604.15710)
查看 PDF(https://arxiv.org/pdf/2604.15710)
GitHub21(https://github.com/MM-Speech/VoxMind)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.15710)
在智能体中获取本文:
hf papers read 2604.15710
未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 1
leungtianle/VoxMind 8B • 约 7 小时前更新 • 17 • 1(https://huggingface.co/leungtianle/VoxMind)
引用该论文的数据集 0
无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.15710 即可在此页面显示。
引用该论文的 Spaces 0
无 Spaces 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2604.15710 即可在此页面显示。
包含该论文的合集 0
无合集包含此论文
新建合集 并将该论文加入,即可在此页面显示。
相似文章
边说话边思考:面向响应式智能对话语音代理的推理时知识迁移
本文介绍了一种对话语音代理系统,该系统使用轻量级设备端“Talker”模型立即开始响应,然后随着前沿大语言模型“Reasoner”知识的可用而将其融入,实现了7-19倍的首响应时间缩短,同时在笔记本电脑上达到接近前沿水平的性能。
Vox
Vox 是一款产品,让用户能够与 GitHub Copilot 进行语音对话,提供编程辅助的语音界面。
OpenAI的新语音模型不止于回话
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。
WavAlign:通过自适应混合后训练提升口语对话模型的智能与表现力
WavAlign 提出一种模态感知的自适应后训练方法,利用受限偏好更新与显式锚定,在端到端口语对话模型中同步提升语义质量与语音表现力。
@LangChain: 在真实对话中,决定何时开口与决定说什么需要几乎同等的脑力。语音代理…
Sierra Platform 的语音代理方法将思考、倾听和说话并行化,以模拟人类对话,正如 Max Agency 播客中所讨论的。