边说话边思考:面向响应式智能对话语音代理的推理时知识迁移
摘要
本文介绍了一种对话语音代理系统,该系统使用轻量级设备端“Talker”模型立即开始响应,然后随着前沿大语言模型“Reasoner”知识的可用而将其融入,实现了7-19倍的首响应时间缩短,同时在笔记本电脑上达到接近前沿水平的性能。
查看缓存全文
缓存时间: 2026/06/29 10:02
论文页面 - 边说话边思考:面向响应式智能语音对话代理的推理时知识迁移
来源:https://huggingface.co/papers/2511.07397 👋 作者在此,感谢关注我们的论文!
**概述:**对话式AI系统利用轻量级模型实现实时响应,但速度较慢的Frontier LLM在准确性、工具使用等方面能力更强。我们通过模型协作,在响应式对话系统中接近前沿水平性能。一个微小的设备端 Talker 在毫秒内开始回复,并随着信息可用逐步融入来自前沿LLM Reasoner 的知识。这使得首次响应时间加快 7–19 倍,并且能在笔记本电脑(Apple M2, 16 GB)上运行。
7个 Talker 模型和29万样本的训练数据集已包含在链接的集合中。
我们还在这里设置了一个仓库 💻 github.com/vysri/conversational-infill (https://github.com/vysri/conversational-infill)。其中包含可运行演示(与视频相同),因此你可以加载已发布模型,亲自与完整系统对话;此外还有训练框架,如果你想使用该数据集将其他SLM微调为自己的Talker。
欢迎在评论区提问,我们会随时回复!
相似文章
@LangChain: 在真实对话中,决定何时开口与决定说什么需要几乎同等的脑力。语音代理…
Sierra Platform 的语音代理方法将思考、倾听和说话并行化,以模拟人类对话,正如 Max Agency 播客中所讨论的。
VoxMind:端到端智能体语音对话系统
VoxMind 推出具备智能体能力的端到端语音对话系统,通过“先思后言”机制与动态工具管理,将任务完成率从 34.88% 提升到 74.57%,同时保持对话质量。
OpenAI的新语音模型不止于回话
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。
研究人员让AI智能体优化LLM推理,Token用量锐减70%
研究人员开发了AutoTTS框架,通过AI智能体自动设计控制策略来优化LLM推理,在保持高推理准确率的同时,将Token消耗降低约70%。
Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation
This paper introduces InterRS, a method for real-time speech generation that interleaves reasoning steps during natural pauses in speech, achieving better performance on math and logic benchmarks while maintaining fluent and instant responses.