边说话边思考：面向响应式智能对话语音代理的推理时知识迁移

Hugging Face Daily Papers 2026/06/23 00:00 论文

conversational-ai inference-time knowledge-transfer voice-agents on-device model-collaboration real-time

摘要

本文介绍了一种对话语音代理系统，该系统使用轻量级设备端“Talker”模型立即开始响应，然后随着前沿大语言模型“Reasoner”知识的可用而将其融入，实现了7-19倍的首响应时间缩短，同时在笔记本电脑上达到接近前沿水平的性能。

语音代理面临一个根本性矛盾：使基础模型具备能力的推理、检索和工具使用是迭代且缓慢的，而对话交互要求毫秒级的响应时间。较小的实时模型能满足延迟要求，但在复杂任务上无法与基础模型匹敌，这使得当前的语音代理不得不在响应能力和强大能力之间做出取舍。我们引入了对话补全（conversational infill），其中一个小型Talker模型既能即时生成上下文相关的响应以隐藏外部Reasoner模型的延迟，又能在推理过程中流畅地整合流式Reasoner知识。我们整理了一个包含290,571个示例的合成数据集，涵盖六个领域，并证明该任务在从135M到1.7B参数的七个广泛使用的小型语言模型上是可以学习的。我们的系统实现ConvFill在保持毫秒级首响应时间的同时，将准确率差距缩小到对应前沿Reasoner性能的6.3%以内。在一项实时用户研究（n=18）中，Talker部署在Apple M2 SoC上运行，参与者认为ConvFill总体与前沿模型相当，在检索密集型任务中更偏爱它，并评价其响应速度显著更快。这些结果表明，对话补全在延迟-能力帕累托前沿上开辟了一个新维度，为构建既响应迅速又高度能干的语音代理提供了实用路径。代码、模型和数据集可在 https://github.com/vysri/conversational-infill 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/29 10:02

论文页面 - 边说话边思考：面向响应式智能语音对话代理的推理时知识迁移

来源：https://huggingface.co/papers/2511.07397 👋 作者在此，感谢关注我们的论文！

**概述：**对话式AI系统利用轻量级模型实现实时响应，但速度较慢的Frontier LLM在准确性、工具使用等方面能力更强。我们通过模型协作，在响应式对话系统中接近前沿水平性能。一个微小的设备端 Talker 在毫秒内开始回复，并随着信息可用逐步融入来自前沿LLM Reasoner 的知识。这使得首次响应时间加快 7–19 倍，并且能在笔记本电脑（Apple M2, 16 GB）上运行。

7个 Talker 模型和29万样本的训练数据集已包含在链接的集合中。

我们还在这里设置了一个仓库 💻 github.com/vysri/conversational-infill (https://github.com/vysri/conversational-infill)。其中包含可运行演示（与视频相同），因此你可以加载已发布模型，亲自与完整系统对话；此外还有训练框架，如果你想使用该数据集将其他SLM微调为自己的Talker。

欢迎在评论区提问，我们会随时回复！

边说话边思考：面向响应式智能对话语音代理的推理时知识迁移

论文页面 - 边说话边思考：面向响应式智能语音对话代理的推理时知识迁移

相似文章

@LangChain: 在真实对话中，决定何时开口与决定说什么需要几乎同等的脑力。语音代理…

VoxMind：端到端智能体语音对话系统

OpenAI的新语音模型不止于回话

研究人员让AI智能体优化LLM推理，Token用量锐减70%

Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation

提交意见反馈