多流大语言模型:通过并行思维、输入与输出流解锁语言模型的潜力

Hugging Face Daily Papers 论文

摘要

本文提出了多流大语言模型(Multi-Stream LLMs),将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成,解决了自主智能体应用中的瓶颈问题。

语言模型能力的持续提升,使其作为自主智能体的驱动引擎得到了广泛应用,例如在编码或计算机操作应用中。然而,自 ChatGPT 等早期指令微调模型问世以来,这些系统的核心并未发生太大变化。即使先进的 AI 智能体也基于消息交换格式运行,在单一计算流中依次与用户、系统、自身(即思维链)以及工具交换消息。这种聊天模型中单一流的处理瓶颈导致了诸多局限性:智能体在阅读时无法执行动作(生成输出),反之,在撰写时也无法对新信息做出反应。同样,智能体在思考时无法执行动作,在阅读或处理信息时也无法进行思考。 在这项工作中,我们展示了通过将指令微调从顺序消息格式切换为多个并行计算流,并将每个角色拆分为单独的流,可以解除模型的阻塞状态。随后,语言模型的每次前向传递都会同时从多个输入流中读取数据,并在多个输出流中生成 token,所有这些均因果依赖于更早的时间步。我们认为,这种数据驱动的改变能够解决上述诸多可用性局限,通过并行化提高模型效率,通过更好的关注点分离提高模型安全性,并进一步改善模型的可监控性。
查看原文
查看缓存全文

缓存时间: 2026/05/13 12:14

论文页面 - 多流大语言模型:通过平行的思维、输入和输出流解除语言模型的阻塞

来源: https://huggingface.co/papers/2605.12460

摘要

通过将指令微调从基于消息的序列处理转向并行流处理,语言模型得以增强,从而能够在多个并发数据流上同时进行读取和生成。

语言模型能力的持续进步使其被广泛用作自主智能体的驱动力量,例如在编程或计算机操作应用中。然而,这些系统的核心自早期的指令微调模型(如 ChatGPT)以来变化不大。即使先进的 AI 智能体也基于消息交换格式运行,依次在单一计算流中与用户、系统、自身(即思维链)以及工具交换消息。聊天模型中这种单流瓶颈导致了一系列局限性:智能体在读取时无法执行(生成输出),反之,在写入时也无法对新信息做出反应。同样,智能体在思考时无法行动,在阅读或处理信息时也无法思考。在这项工作中,我们表明,通过将指令微调从顺序消息格式转向多种并行计算流,并将每个角色拆分为单独的流,可以解除模型的阻塞。语言模型的每次前向传递都会同时从多个输入流读取数据,并在多个输出流中生成令牌,所有这些流都因果依赖于较早的时间步。我们认为,这种数据驱动的转变解决了上述一些可用性限制,通过并行化提高了模型效率,通过更好的关注点分离提高了模型安全性,并可以进一步提高模型的可监控性。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12460)查看 PDF (https://arxiv.org/pdf/2605.12460)项目页面 (https://huggingface.co/JonasGeiping/stream-qwen3.5-27b)GitHub2 (https://github.com/seal-rg/streaming)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12460)

在你的智能体中获取这篇论文:

hf papers read 2605\.12460

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.12460 以从此页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.12460 以从此页面链接。

引用此论文的空间0

没有链接此论文的空间

在空间的 README.md 中引用 arxiv.org/abs/2605.12460 以从此页面链接。

包含此论文的集合0

没有包含此论文的集合

将这篇论文添加到集合 (https://huggingface.co/new-collection)中,以从此页面链接。

相似文章

ProactiveLLM: 学习主动交互的流式大语言模型

arXiv cs.CL

ProactiveLLM 提出了一种方法,使流式大语言模型能够基于内源性线索主动决定何时生成输出,通过基于掩码的流式建模和同步特权自蒸馏,在无需外部标注的情况下降低延迟。

X-Stream: 探索将MLLMs作为多流理解的多路复用器

Hugging Face Daily Papers

X-Stream 引入了首个多流视频理解基准,将MLLMs作为多路复用器在多个并发流中进行评估。研究表明,当前MLLMs仅能达到约50%的准确率,暴露了处理多流时的显著局限性。

释放全双工语音模型中LLM的能力

Hugging Face Daily Papers

提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,允许单个自回归LLM持续监听、书写可见文本并实时说话,实现无需架构修改的全双工语音交互。