多流大语言模型:通过并行思维、输入与输出流解锁语言模型的潜力
摘要
本文提出了多流大语言模型(Multi-Stream LLMs),将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成,解决了自主智能体应用中的瓶颈问题。
查看缓存全文
缓存时间: 2026/05/13 12:14
论文页面 - 多流大语言模型:通过平行的思维、输入和输出流解除语言模型的阻塞
来源: https://huggingface.co/papers/2605.12460
摘要
通过将指令微调从基于消息的序列处理转向并行流处理,语言模型得以增强,从而能够在多个并发数据流上同时进行读取和生成。
语言模型能力的持续进步使其被广泛用作自主智能体的驱动力量,例如在编程或计算机操作应用中。然而,这些系统的核心自早期的指令微调模型(如 ChatGPT)以来变化不大。即使先进的 AI 智能体也基于消息交换格式运行,依次在单一计算流中与用户、系统、自身(即思维链)以及工具交换消息。聊天模型中这种单流瓶颈导致了一系列局限性:智能体在读取时无法执行(生成输出),反之,在写入时也无法对新信息做出反应。同样,智能体在思考时无法行动,在阅读或处理信息时也无法思考。在这项工作中,我们表明,通过将指令微调从顺序消息格式转向多种并行计算流,并将每个角色拆分为单独的流,可以解除模型的阻塞。语言模型的每次前向传递都会同时从多个输入流读取数据,并在多个输出流中生成令牌,所有这些流都因果依赖于较早的时间步。我们认为,这种数据驱动的转变解决了上述一些可用性限制,通过并行化提高了模型效率,通过更好的关注点分离提高了模型安全性,并可以进一步提高模型的可监控性。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12460)查看 PDF (https://arxiv.org/pdf/2605.12460)项目页面 (https://huggingface.co/JonasGeiping/stream-qwen3.5-27b)GitHub2 (https://github.com/seal-rg/streaming)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12460)
在你的智能体中获取这篇论文:
hf papers read 2605\.12460
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.12460 以从此页面链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.12460 以从此页面链接。
引用此论文的空间0
没有链接此论文的空间
在空间的 README.md 中引用 arxiv.org/abs/2605.12460 以从此页面链接。
包含此论文的集合0
没有包含此论文的集合
将这篇论文添加到集合 (https://huggingface.co/new-collection)中,以从此页面链接。
相似文章
Multi-Stream LLMs:关于并行/分离提示、思考、I/O的新论文
本文提出了Multi-Stream LLMs,它使用多个并行的输入/输出流,使模型能够同时读取和生成,从而解除顺序聊天格式的限制。
ProactiveLLM: 学习主动交互的流式大语言模型
ProactiveLLM 提出了一种方法,使流式大语言模型能够基于内源性线索主动决定何时生成输出,通过基于掩码的流式建模和同步特权自蒸馏,在无需外部标注的情况下降低延迟。
@jonasgeiping:我们训练模型的方式错了,这都是因为ChatGPT。即使日常使用的现代编码代理仍采用基于消息的…
一篇新论文提出具有多并行流的LLM,以克服编码代理和聊天模型中基于单流消息交互的瓶颈,实现同时阅读、写作和推理。
X-Stream: 探索将MLLMs作为多流理解的多路复用器
X-Stream 引入了首个多流视频理解基准,将MLLMs作为多路复用器在多个并发流中进行评估。研究表明,当前MLLMs仅能达到约50%的准确率,暴露了处理多流时的显著局限性。
释放全双工语音模型中LLM的能力
提出Listen-Write-Speak (LWS),一种文本优先的三通道范式,允许单个自回归LLM持续监听、书写可见文本并实时说话,实现无需架构修改的全双工语音交互。