边说话边思考:面向响应式智能对话语音代理的推理时知识迁移

Hugging Face Daily Papers 论文

摘要

本文介绍了一种对话语音代理系统,该系统使用轻量级设备端“Talker”模型立即开始响应,然后随着前沿大语言模型“Reasoner”知识的可用而将其融入,实现了7-19倍的首响应时间缩短,同时在笔记本电脑上达到接近前沿水平的性能。

语音代理面临一个根本性矛盾:使基础模型具备能力的推理、检索和工具使用是迭代且缓慢的,而对话交互要求毫秒级的响应时间。较小的实时模型能满足延迟要求,但在复杂任务上无法与基础模型匹敌,这使得当前的语音代理不得不在响应能力和强大能力之间做出取舍。我们引入了对话补全(conversational infill),其中一个小型Talker模型既能即时生成上下文相关的响应以隐藏外部Reasoner模型的延迟,又能在推理过程中流畅地整合流式Reasoner知识。我们整理了一个包含290,571个示例的合成数据集,涵盖六个领域,并证明该任务在从135M到1.7B参数的七个广泛使用的小型语言模型上是可以学习的。我们的系统实现ConvFill在保持毫秒级首响应时间的同时,将准确率差距缩小到对应前沿Reasoner性能的6.3%以内。在一项实时用户研究(n=18)中,Talker部署在Apple M2 SoC上运行,参与者认为ConvFill总体与前沿模型相当,在检索密集型任务中更偏爱它,并评价其响应速度显著更快。这些结果表明,对话补全在延迟-能力帕累托前沿上开辟了一个新维度,为构建既响应迅速又高度能干的语音代理提供了实用路径。代码、模型和数据集可在 https://github.com/vysri/conversational-infill 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/29 10:02

论文页面 - 边说话边思考:面向响应式智能语音对话代理的推理时知识迁移

来源:https://huggingface.co/papers/2511.07397 👋 作者在此,感谢关注我们的论文!

**概述:**对话式AI系统利用轻量级模型实现实时响应,但速度较慢的Frontier LLM在准确性、工具使用等方面能力更强。我们通过模型协作,在响应式对话系统中接近前沿水平性能。一个微小的设备端 Talker 在毫秒内开始回复,并随着信息可用逐步融入来自前沿LLM Reasoner 的知识。这使得首次响应时间加快 7–19 倍,并且能在笔记本电脑(Apple M2, 16 GB)上运行。

7个 Talker 模型和29万样本的训练数据集已包含在链接的集合中。

我们还在这里设置了一个仓库 💻 github.com/vysri/conversational-infill (https://github.com/vysri/conversational-infill)。其中包含可运行演示(与视频相同),因此你可以加载已发布模型,亲自与完整系统对话;此外还有训练框架,如果你想使用该数据集将其他SLM微调为自己的Talker。

欢迎在评论区提问,我们会随时回复!

相似文章

VoxMind:端到端智能体语音对话系统

Hugging Face Daily Papers

VoxMind 推出具备智能体能力的端到端语音对话系统,通过“先思后言”机制与动态工具管理,将任务完成率从 34.88% 提升到 74.57%,同时保持对话质量。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。