MoshiRAG:面向全双工语音语言模型的异步知识检索
摘要
MoshiRAG 将紧凑的全双工语音语言模型与异步检索增强生成相结合,在保持实时交互性的同时提高事实准确性。该方法利用对话中自然的时空间隙来检索外部知识,而不会打断对话的自然流程。
arXiv:2604.12928v2 公告类型:替换
摘要:语音到语音语言模型近期兴起,旨在提升对话 AI 的自然度。其中,全双工模型以其实时交互性著称,包括处理停顿、打断和反馈。然而,提高其事实准确性仍是一个开放挑战。虽然扩大模型规模可以解决这一问题,但会使实时推理成本过高。在这项工作中,我们提出了 MoshiRAG,一种模块化方法,将紧凑的全双工接口与选择性检索相结合,以访问更强大的知识源。我们的异步框架使模型能够识别知识密集型查询,并将其响应建立在外部信息之上。通过利用响应起始与核心信息传递之间的自然时间间隔,检索过程可以在保持对话自然流动的同时完成。借助这种方法,MoshiRAG 在事实准确性上可与公开的最佳非双工语音语言模型媲美,同时保留了全双工系统固有的交互性。此外,我们灵活的设计支持即插即用的检索方法,无需重新训练,并在领域外的数学推理任务中表现出色。
查看缓存全文
缓存时间: 2026/04/20 08:32
# 面向全双工语音语言模型的异步知识检索 来源:https://arxiv.org/html/2604.12928 Manu OrsiniEugene KharitonovNeil ZeghidourKaren LivescuAlexandre Défossez ###### 摘要 语音到语音语言模型近期兴起,旨在增强对话式 AI 的自然度。特别是全双工模型以其实时交互能力而著称,包括处理停顿、打断和反馈语。然而,提升其事实准确性仍是一个未解决的挑战。虽然扩大模型规模可以弥补这一差距,但这将使实时推理成本过高。在这项工作中,我们提出了 MoshiRAG,一种模块化方法,它将紧凑的全双工接口与选择性检索相结合,以访问更强大的知识源。我们的异步框架使模型能够识别需要知识的查询,并将响应建立在外部信息之上。通过利用响应开始到核心信息传递之间的自然时间间隔,检索过程可以在保持自然对话流程的同时完成。采用这种方法,MoshiRAG 在事实准确性上与最佳公开发布的非双工语音语言模型相当,同时保留了全双工系统固有的交互性。此外,我们灵活的设计支持即插即用的检索方法,无需重新训练,并在域外数学推理任务上展现了强劲性能。全双工、检索增强生成、语音助手、事实准确性、语音语言模型、Moshi ## 1 引言 为人工智能(AI)系统构建能够协助人类完成多种场景的语音界面,长期以来一直是未来技术愿景的核心。一个用户友好的语音界面应创造自然的对话体验,让用户与 AI 系统交流时如同与真实的人类助手交谈。早期的方法通常组合多个组件——例如自动语音识别(ASR)、基于文本的对话管理和文本到语音(TTS)合成——并针对对话用例进行优化(Seneff 等人, 1998 (https://arxiv.org/html/2604.12928#bib.bib311);Levin 等人, 2000 (https://arxiv.org/html/2604.12928#bib.bib312);Bohus 和 Rudnicky, 2009 (https://arxiv.org/html/2604.12928#bib.bib313))。近年来的研究转向端到端方法,以避免语音到文本转换带来的信息损失(如韵律、节奏和语调),同时减少级联流水线造成的延迟和摩擦(Zhang 等人, 2023 (https://arxiv.org/html/2604.12928#bib.bib56);Nachmani 等人, 2024 (https://arxiv.org/html/2604.12928#bib.bib30);Xie 和 Wu, 2024 (https://arxiv.org/html/2604.12928#bib.bib145);Fang 等人, 2025a (https://arxiv.org/html/2604.12928#bib.bib147);Zeng 等人, 2024 (https://arxiv.org/html/2604.12928#bib.bib167))。在现代框架中,全双工模型(Défossez 等人, 2024 (https://arxiv.org/html/2604.12928#bib.bib136);Yu 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib314))因其能“边听边说”而区别于轮次式方法——后者以较大的块(如句子)处理语音,并仅在每个块完成后才允许在听和说状态之间切换(见图 1 (https://arxiv.org/html/2604.12928#S1.F1))。同时接收语音输入并生成响应的能力使得全双工模型能够更迅速地响应用户输入(Zhang 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib251);Chen 等人, 2025a (https://arxiv.org/html/2604.12928#bib.bib123)),并能更好地模拟真实世界对话的复杂交互性(Veluri 等人, 2024 (https://arxiv.org/html/2604.12928#bib.bib249);Yu 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib314);Roy 等人, 2026 (https://arxiv.org/html/2604.12928#bib.bib316))。然而,全双工方法也带来了独特的挑战,例如需要实时语音处理和生成。同时,近期研究表明,原生音频模型在需要事实准确性的任务(如问答)上比文本模型更为困难(Wang 等人, 2025a (https://arxiv.org/html/2604.12928#bib.bib241))。这种事实准确性的降低部分是由于可用于训练的语音数据量(以词数计)远小于文本数据。 见图注 图 1:轮次式模型与全双工模型的对比。前者必须在说话和聆听状态之间显式切换,而后者可以同时说话和聆听。 为了解决在保持交互性的同时提升事实准确性这一挑战,我们提出了 MoshiRAG,这是首个配备检索增强生成(RAG)能力的全双工语音模型,作为全双工语音语言模型 Moshi 的扩展(Défossez 等人, 2024 (https://arxiv.org/html/2604.12928#bib.bib136))。虽然 RAG 已成为增强大型语言模型(LLM)事实准确性的广泛采用技术(Lewis 等人, 2020 (https://arxiv.org/html/2604.12928#bib.bib315)),但由于连续语音交互带来的严格实时约束,其在全双工语音系统中的集成尚未得到充分探索。我们通过利用口头响应开始与其关键信息内容出现之间的自然时间间隔(图 2 中的“关键词延迟”)来应对这一挑战。基于这一观察,我们设计了专门的微调数据,训练 Moshi 在用户提出知识密集型查询时预测一个检索触发信号。该信号异步调用信息检索系统,生成与对话上下文相关的参考文档。检索到的信息随后在关键内容出现之前被纳入响应生成过程。我们设计 RAG 机制以确保整个检索过程在两秒内完成——比许多现有语音语言模型的关键词延迟更短(见表 1 (https://arxiv.org/html/2604.12928#S5.T1))。除了在不牺牲交互性的前提下提高事实准确性,MoshiRAG 对检索后端是无关的,从而能够无缝集成不同的检索方法(例如基于 LLM 的检索器或搜索引擎),只要它们能在合理时间内提供文本参考。这一设计为未来的改进提供了灵活性和可扩展性。实验结果表明,MoshiRAG 在问答(QA)基准上显著提升了 Moshi 的事实准确性,同时通过全双工基准(Lin 等人, 2025b (https://arxiv.org/html/2604.12928#bib.bib288), a (https://arxiv.org/html/2604.12928#bib.bib289))衡量的语音对话交互性保持良好。我们进一步证明,只需在推理时切换到更强大的检索后端,无需重新训练基础模型,即可提升性能。最后,我们证明 MoshiRAG 能很好地泛化到之前未见过的数学推理任务——这对原始 Moshi 和其他语音语言模型都具有挑战性。这可以看作是对全双工模型工具使用能力的早期探索,其中 Moshi 有效地利用 LLM 作为外部工具来解决数学任务。我们的结果表明了在更广泛的全双工模型中实现通用工具使用的潜力,并展示了通过将实时交互语音界面与更强的解决问题机制相结合,构建更强大、更可靠、更用户友好的语音 AI 助手的前景。 ## 2 相关工作 自 dGSLM(Nguyen 等人, 2023 (https://arxiv.org/html/2604.12928#bib.bib18))开创端到端多说话人对话建模研究以来(Veluri 等人, 2024 (https://arxiv.org/html/2604.12928#bib.bib249);Wang 等人, 2025b (https://arxiv.org/html/2604.12928#bib.bib248)),双工模型已成为一个日益突出的研究方向。为了联合建模用户和系统的语音,一条研究路线采用时间复用方法(Zhang 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib251);Chen 等人, 2025a (https://arxiv.org/html/2604.12928#bib.bib123);Mai 和 Carson-Berndsen, 2025 (https://arxiv.org/html/2604.12928#bib.bib317)),其中模型交替处理固定时长的用户输入块并生成相同时长的响应。相比之下,采用双通道架构的模型(如 Moshi(Défossez 等人, 2024 (https://arxiv.org/html/2604.12928#bib.bib136);Yu 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib314);Hu 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib326);Yao 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib318);Roy 等人, 2026 (https://arxiv.org/html/2604.12928#bib.bib316)))能够以高帧率同时建模输入和输出语音流。 为了提升语音对话模型的事实准确性,近期工作引入了 RAG(Min 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib322);Rackauckas 和 Hirschberg, 2025 (https://arxiv.org/html/2604.12928#bib.bib320);Chen 等人, 2025b (https://arxiv.org/html/2604.12928#bib.bib319);Feng 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib321))。同期工作 Stream RAG(Arora 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib182))尤其相关,因为它同样利用口语对话中的时间间隔来执行信息检索。然而,现有方法是为非全双工设置设计的,并未解决实时全双工对话中的严格时序约束。此外,先前的方法是从固定、预索引的语料库中检索信息,而我们将这一范式扩展到开放域问答,直接从网络上检索信息。除 RAG 之外,还探索了替代方法,如音频和语音模型的思维链推理(Zhifei 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib324);Ma 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib323);Chiang 等人, 2025b (https://arxiv.org/html/2604.12928#bib.bib37), a (https://arxiv.org/html/2604.12928#bib.bib38);Shih 等人, 2025 (https://arxiv.org/html/2604.12928#bib.bib325));这些技术与我们的框架互补,可在未来工作中自然结合。 ## 3 系统设计 MoshiRAG 框架基于 Moshi(Défossez 等人, 2024 (https://arxiv.org/html/2604.12928#bib.bib136))构建。为了将外部信息整合到 Moshi 的响应生成中,我们首先分析人机语音对话中的时序约束。基于此,我们提出了一个由全双工前端和异步检索后端组成的框架,两者并行运行,使模型能够在整合外部检索知识的同时保持交互性。 见图注 图 2:人机对话中不同类型的延迟。端到端关键词延迟(E2EKD)衡量用户问题结束到响应中最有信息量词语之间的时间。检索延迟衡量后端提供相关信息所需时间。 ### 3.1 时序约束 下面,我们介绍与人机对话延迟相关的一些术语(如图 2 (https://arxiv.org/html/2604.12928#S3.F2) 所示): - • 首个音频令牌时间(TTFAT):对应于 LLM 中常用的首个令牌时间(TTFT)在音频领域的指标。我们将 TTFAT 定义为用户话语结束到模型生成其响应首个音频令牌之间的延迟。111此定义侧重于内容生成延迟,不包括令牌到波形转换(如编解码器或声码器)的时间,这与本文范围正交。 - • 关键词延迟:从模型口头响应开始到关键内容(即直接回答用户查询的关键词,若有)首次出现的时间间隔。详见第 5.2 节。 - • 端到端关键词延迟(E2EKD):从用户查询结束到模型响应中提到关键词的总时间。根据定义,E2EKD 是 TTFAT 和关键词延迟之和。 - • 检索延迟:从预测检索触发到检索过程完成的时间。 E2EKD 是一个关键的感知指标,因为它决定了有意义的信息多快能传递给用户。对于检索增强系统,假设检索不是在用户查询结束前触发的,则检索延迟必须小于 E2EKD,以便将检索到的信息及时整合到响应中。我们的初步分析表明,现有语音语言模型的 E2EKD 通常超过 3 秒(见表 1)。因此,在数据构建和模型训练过程中,我们为 MoshiRAG 设定的目标检索延迟不超过 2 秒,确保外部知识能有效整合而不影响实时交互质量。 ### 3.2 系统概述 在本文中,我们将直接接收或生成音频以与用户实时通信的模块定义为前端,而将不直接与用户交互的组件定义为后端。例如,在传统的级联 ASR-对话-TTS 系统中,按照这一定义,ASR 和 TTS 模块属于前端组件,而基于文本的对话管理系统属于后端。为了优化用户体验,前端必须对用户输入提供即时反馈和反应。相比之下,后端可以优先考虑事实准确性和推理(例如规划对话流程、选择正确信息或管理话题),并且由于不受严格实时约束,时间灵活性更大。 在这项工作中,我们使用原始 Moshi 模型(稍作修改)作为全双工前端,同时一个异步信息检索系统作为后端并行运行。此外,由于大多数信息检索系统基于文本,我们使用额外的流式 ASR 模型将用户语音转录为文本以用于检索。222虽有可能将转录功能构建到主 Moshi 模型中,但我们使用单独的 ASR 模型以最小化训练工作量。该 ASR 模型直接接收语音输入,因此按定义属于前端的一部分。图 3 提供了系统的概念性概述。前端和后端之间缺乏同步使得系统能够有效地“边听边说边思考”,类似于人类的认知能力。 见图注 图 3:MoshiRAG 中前端和后端组件的图示。当模型需要外部信息时,它输出一个⟨ret⟩令牌。对话转录发送到异步运行的后端。结果准备好后,被注入 Moshi,然后 Moshi 在不中断的情况下调整其响应。 在语音对话过程中,前端 Moshi 接收由 Mimi 编解码器编码器(Défossez 等人, 2024)编码的用户语音令牌作为输入,并在不同通道中自回归地预测文本转录(包含填充令牌)以及模型响应的对应语音令牌。
相似文章
Disco-RAG: 话语感知检索增强生成
Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。
RAG-Anything:全能型 RAG 框架
RAG-Anything 是一个全新的开源框架,通过整合跨模态关系和语义匹配来增强多模态知识检索,在复杂的基准测试中表现优于现有方法。
LightRAG:简单高效的检索增强生成框架
本文介绍了 LightRAG,这是一个开源框架,通过整合图结构来提升检索增强生成(RAG)的上下文感知能力与信息检索效率。
HKUDS/RAG-Anything
HKUDS 发布 RAG-Anything:基于 LightRAG 的开源一站式多模态检索增强生成框架。
文本-图协同:用于 RAG 的双向验证与补全框架
本文介绍了 TGS-RAG,这是一个双向验证与补全框架,通过协同基于文本和基于图的检索增强生成(RAG),提高了多跳推理的准确性。