释放全双工语音模型中LLM的能力

Hugging Face Daily Papers 2026/05/04 00:00 论文

摘要

提出Listen-Write-Speak (LWS)，一种文本优先的三通道范式，允许单个自回归LLM持续监听、书写可见文本并实时说话，实现无需架构修改的全双工语音交互。

基于语音的大型语言模型通常局限于口语回复，这将其面向用户的输出限制在可口头表达的内容上，并抑制了文本原生能力，如代码生成、结构化分析以及实时交互中的多步推理——这些任务需要持久、结构化且可检查的中间输出。现有工作改进了口语推理或全双工轮流发言，但仍将文本视为隐藏的中间状态或从属模态，而非一等输出通道。我们提出Listen-Write-Speak (LWS)，一种文本优先的三通道范式，其中单个自回归LLM持续监听用户音频、书写可见的自由格式文本作为其主要输出，并在共享的因果注意上下文中并行生成实时口语响应。这一行为完全通过Token Schema实现，无需架构修改，并通过两阶段数据流水线学习，该流水线根据已揭示的输入时间线合成每秒认知标注。实验表明，LWS在Full-Duplex-Bench上展现出强大的全双工交互能力，在VoiceBench AlpacaEval上达到4.72分，书写-口语一致性达92.6%，并在URO-Bench上持续优于其内部消融变体。这些结果表明，可见书写可作为语音交互的一等输出通道，且不会牺牲实时响应性。代码和数据集可在项目页面获取：https://royalzhang.com/project/lws-page/。

查看原文

查看缓存全文

缓存时间: 2026/06/09 12:41

论文页面 - Liberating LLM Capabilities in Full-Duplex Speech Models

来源：https://huggingface.co/papers/2606.07547 发表于 5月4日

由 https://huggingface.co/zly-idleness 提交

zly (https://huggingface.co/zly-idleness) 于 6月9日

摘要

一种文本优先的三通道语音接口，在语音回复的同时呈现可见的文本输出，在全双工对话任务中展现出优越性能。

基于语音的大语言模型 (https://huggingface.co/papers?q=Speech-based%20large%20language%20models) 通常局限于语音回复，这限制了其面向用户的输出仅限于可口头表达的内容，并抑制了诸如代码生成、结构化分析和多步推理等文本原生能力在实时交互中的应用——尤其是那些需要持久、结构化且可检查的中间输出的任务。现有工作改进了语音推理或全双工话轮切换，但仍将文本视为隐藏的中间状态或从属模态，而非一等输出通道。我们提出 Listen-Write-Speak (LWS)，一种文本优先的三通道范式，其中单个自回归 LLM (https://huggingface.co/papers?q=autoregressive%20LLM) 持续倾听用户音频，写出可见的自由形式文本作为其主要输出，并在共享的因果注意力 (https://huggingface.co/papers?q=causal%20attention) 上下文中并行生成实时口语回应。这一行为完全通过 Token Schema (https://huggingface.co/papers?q=Token%20Schema) 实现，无需修改架构，并通过两阶段数据管道学习，该管道合成与揭示的输入时间线一致的每秒认知注释 (https://huggingface.co/papers?q=cognitive%20annotations)。实验上，LWS 在全双工基准测试 Full-Duplex-Bench 上表现出强大的全双工交互 (https://huggingface.co/papers?q=full-duplex%20interaction) 能力，在 VoiceBench (https://huggingface.co/papers?q=VoiceBench) AlpacaEval 上达到 4.72 分，写作-口语一致性达 92.6%，并在 URO-Bench (https://huggingface.co/papers?q=URO-Bench) 上持续优于其内部消融版本。这些结果表明，可见写作可以作为语音交互的一等输出通道，同时不牺牲实时响应性。代码和数据集可在项目页面获取：https://royalzhang.com/project/lws-page/。

查看 arXiv 页面 (https://arxiv.org/abs/2606.07547) 查看 PDF (https://arxiv.org/pdf/2606.07547) 项目页面 (https://royalzhang.com/project/lws-page/) GitHub (https://github.com/zly-idleness/lws_demo) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07547)

在您的智能体中获取此论文：

hf papers read 2606.07547

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.07547 以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.07547 以从此页面链接。

引用此论文的 Space 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.07547 以从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

请将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

释放全双工语音模型中LLM的能力

论文页面 - Liberating LLM Capabilities in Full-Duplex Speech Models

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

BayLing-Duplex: 单一自回归大语言模型实现原生全双工语音对话

基于SpeechLLM的流式语音转文本翻译

从输入端最小化模态差距：您的语音大语言模型可以成为具备韵律感知能力的文本大语言模型

多流大语言模型：通过并行思维、输入与输出流解锁语言模型的潜力

Multi-Stream LLMs：关于并行/分离提示、思考、I/O的新论文

提交意见反馈