释放全双工语音模型中LLM的能力

Hugging Face Daily Papers 论文

摘要

提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,允许单个自回归LLM持续监听、书写可见文本并实时说话,实现无需架构修改的全双工语音交互。

基于语音的大型语言模型通常局限于口语回复,这将其面向用户的输出限制在可口头表达的内容上,并抑制了文本原生能力,如代码生成、结构化分析以及实时交互中的多步推理——这些任务需要持久、结构化且可检查的中间输出。现有工作改进了口语推理或全双工轮流发言,但仍将文本视为隐藏的中间状态或从属模态,而非一等输出通道。我们提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,其中单个自回归LLM持续监听用户音频、书写可见的自由格式文本作为其主要输出,并在共享的因果注意上下文中并行生成实时口语响应。这一行为完全通过Token Schema实现,无需架构修改,并通过两阶段数据流水线学习,该流水线根据已揭示的输入时间线合成每秒认知标注。实验表明,LWS在Full-Duplex-Bench上展现出强大的全双工交互能力,在VoiceBench AlpacaEval上达到4.72分,书写-口语一致性达92.6%,并在URO-Bench上持续优于其内部消融变体。这些结果表明,可见书写可作为语音交互的一等输出通道,且不会牺牲实时响应性。代码和数据集可在项目页面获取:https://royalzhang.com/project/lws-page/。
查看原文
查看缓存全文

缓存时间: 2026/06/09 12:41

论文页面 - Liberating LLM Capabilities in Full-Duplex Speech Models

来源:https://huggingface.co/papers/2606.07547 发表于 5月4日

·

由 https://huggingface.co/zly-idleness 提交

zly (https://huggingface.co/zly-idleness) 于 6月9日

摘要

一种文本优先的三通道语音接口,在语音回复的同时呈现可见的文本输出,在全双工对话任务中展现出优越性能。

基于语音的大语言模型 (https://huggingface.co/papers?q=Speech-based%20large%20language%20models) 通常局限于语音回复,这限制了其面向用户的输出仅限于可口头表达的内容,并抑制了诸如代码生成、结构化分析和多步推理等文本原生能力在实时交互中的应用——尤其是那些需要持久、结构化且可检查的中间输出的任务。现有工作改进了语音推理或全双工话轮切换,但仍将文本视为隐藏的中间状态或从属模态,而非一等输出通道。我们提出 Listen-Write-Speak (LWS),一种文本优先的三通道范式,其中单个自回归 LLM (https://huggingface.co/papers?q=autoregressive%20LLM) 持续倾听用户音频,写出可见的自由形式文本作为其主要输出,并在共享的因果注意力 (https://huggingface.co/papers?q=causal%20attention) 上下文中并行生成实时口语回应。这一行为完全通过 Token Schema (https://huggingface.co/papers?q=Token%20Schema) 实现,无需修改架构,并通过两阶段数据管道学习,该管道合成与揭示的输入时间线一致的每秒认知注释 (https://huggingface.co/papers?q=cognitive%20annotations)。实验上,LWS 在全双工基准测试 Full-Duplex-Bench 上表现出强大的全双工交互 (https://huggingface.co/papers?q=full-duplex%20interaction) 能力,在 VoiceBench (https://huggingface.co/papers?q=VoiceBench) AlpacaEval 上达到 4.72 分,写作-口语一致性达 92.6%,并在 URO-Bench (https://huggingface.co/papers?q=URO-Bench) 上持续优于其内部消融版本。这些结果表明,可见写作可以作为语音交互的一等输出通道,同时不牺牲实时响应性。代码和数据集可在项目页面获取:https://royalzhang.com/project/lws-page/。

查看 arXiv 页面 (https://arxiv.org/abs/2606.07547) 查看 PDF (https://arxiv.org/pdf/2606.07547) 项目页面 (https://royalzhang.com/project/lws-page/) GitHub (https://github.com/zly-idleness/lws_demo) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07547)

在您的智能体中获取此论文:

hf papers read 2606.07547

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.07547 以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.07547 以从此页面链接。

引用此论文的 Space 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.07547 以从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

请将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

基于SpeechLLM的流式语音转文本翻译

arXiv cs.CL

提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。