释放全双工语音模型中LLM的能力
摘要
提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,允许单个自回归LLM持续监听、书写可见文本并实时说话,实现无需架构修改的全双工语音交互。
查看缓存全文
缓存时间: 2026/06/09 12:41
论文页面 - Liberating LLM Capabilities in Full-Duplex Speech Models
来源:https://huggingface.co/papers/2606.07547 发表于 5月4日
·
由 https://huggingface.co/zly-idleness 提交
zly (https://huggingface.co/zly-idleness) 于 6月9日
摘要
一种文本优先的三通道语音接口,在语音回复的同时呈现可见的文本输出,在全双工对话任务中展现出优越性能。
基于语音的大语言模型 (https://huggingface.co/papers?q=Speech-based%20large%20language%20models) 通常局限于语音回复,这限制了其面向用户的输出仅限于可口头表达的内容,并抑制了诸如代码生成、结构化分析和多步推理等文本原生能力在实时交互中的应用——尤其是那些需要持久、结构化且可检查的中间输出的任务。现有工作改进了语音推理或全双工话轮切换,但仍将文本视为隐藏的中间状态或从属模态,而非一等输出通道。我们提出 Listen-Write-Speak (LWS),一种文本优先的三通道范式,其中单个自回归 LLM (https://huggingface.co/papers?q=autoregressive%20LLM) 持续倾听用户音频,写出可见的自由形式文本作为其主要输出,并在共享的因果注意力 (https://huggingface.co/papers?q=causal%20attention) 上下文中并行生成实时口语回应。这一行为完全通过 Token Schema (https://huggingface.co/papers?q=Token%20Schema) 实现,无需修改架构,并通过两阶段数据管道学习,该管道合成与揭示的输入时间线一致的每秒认知注释 (https://huggingface.co/papers?q=cognitive%20annotations)。实验上,LWS 在全双工基准测试 Full-Duplex-Bench 上表现出强大的全双工交互 (https://huggingface.co/papers?q=full-duplex%20interaction) 能力,在 VoiceBench (https://huggingface.co/papers?q=VoiceBench) AlpacaEval 上达到 4.72 分,写作-口语一致性达 92.6%,并在 URO-Bench (https://huggingface.co/papers?q=URO-Bench) 上持续优于其内部消融版本。这些结果表明,可见写作可以作为语音交互的一等输出通道,同时不牺牲实时响应性。代码和数据集可在项目页面获取:https://royalzhang.com/project/lws-page/。
查看 arXiv 页面 (https://arxiv.org/abs/2606.07547) 查看 PDF (https://arxiv.org/pdf/2606.07547) 项目页面 (https://royalzhang.com/project/lws-page/) GitHub (https://github.com/zly-idleness/lws_demo) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07547)
在您的智能体中获取此论文:
hf papers read 2606.07547
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.07547 以从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.07547 以从此页面链接。
引用此论文的 Space 0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.07547 以从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
请将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
BayLing-Duplex: 单一自回归大语言模型实现原生全双工语音对话
BayLing-Duplex是一种原生全双工语音语言模型,使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断,实现了高成功率,并相比先前模型提升了回复质量。
基于SpeechLLM的流式语音转文本翻译
提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。
从输入端最小化模态差距:您的语音大语言模型可以成为具备韵律感知能力的文本大语言模型
提出了 TextPro-SLM,一种通过处理口语输入使其类似于具备韵律感知能力的文本来最小化模态差距的语音大语言模型,以少量的训练数据实现了强大的副语言理解能力。
多流大语言模型:通过并行思维、输入与输出流解锁语言模型的潜力
本文提出了多流大语言模型(Multi-Stream LLMs),将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成,解决了自主智能体应用中的瓶颈问题。
Multi-Stream LLMs:关于并行/分离提示、思考、I/O的新论文
本文提出了Multi-Stream LLMs,它使用多个并行的输入/输出流,使模型能够同时读取和生成,从而解除顺序聊天格式的限制。