多流大语言模型：通过并行思维、输入与输出流解锁语言模型的潜力

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

本文提出了多流大语言模型（Multi-Stream LLMs），将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成，解决了自主智能体应用中的瓶颈问题。

语言模型能力的持续提升，使其作为自主智能体的驱动引擎得到了广泛应用，例如在编码或计算机操作应用中。然而，自 ChatGPT 等早期指令微调模型问世以来，这些系统的核心并未发生太大变化。即使先进的 AI 智能体也基于消息交换格式运行，在单一计算流中依次与用户、系统、自身（即思维链）以及工具交换消息。这种聊天模型中单一流的处理瓶颈导致了诸多局限性：智能体在阅读时无法执行动作（生成输出），反之，在撰写时也无法对新信息做出反应。同样，智能体在思考时无法执行动作，在阅读或处理信息时也无法进行思考。在这项工作中，我们展示了通过将指令微调从顺序消息格式切换为多个并行计算流，并将每个角色拆分为单独的流，可以解除模型的阻塞状态。随后，语言模型的每次前向传递都会同时从多个输入流中读取数据，并在多个输出流中生成 token，所有这些均因果依赖于更早的时间步。我们认为，这种数据驱动的改变能够解决上述诸多可用性局限，通过并行化提高模型效率，通过更好的关注点分离提高模型安全性，并进一步改善模型的可监控性。

查看原文

查看缓存全文

缓存时间: 2026/05/13 12:14

论文页面 - 多流大语言模型：通过平行的思维、输入和输出流解除语言模型的阻塞

来源: https://huggingface.co/papers/2605.12460

摘要

通过将指令微调从基于消息的序列处理转向并行流处理，语言模型得以增强，从而能够在多个并发数据流上同时进行读取和生成。

语言模型能力的持续进步使其被广泛用作自主智能体的驱动力量，例如在编程或计算机操作应用中。然而，这些系统的核心自早期的指令微调模型（如 ChatGPT）以来变化不大。即使先进的 AI 智能体也基于消息交换格式运行，依次在单一计算流中与用户、系统、自身（即思维链）以及工具交换消息。聊天模型中这种单流瓶颈导致了一系列局限性：智能体在读取时无法执行（生成输出），反之，在写入时也无法对新信息做出反应。同样，智能体在思考时无法行动，在阅读或处理信息时也无法思考。在这项工作中，我们表明，通过将指令微调从顺序消息格式转向多种并行计算流，并将每个角色拆分为单独的流，可以解除模型的阻塞。语言模型的每次前向传递都会同时从多个输入流读取数据，并在多个输出流中生成令牌，所有这些流都因果依赖于较早的时间步。我们认为，这种数据驱动的转变解决了上述一些可用性限制，通过并行化提高了模型效率，通过更好的关注点分离提高了模型安全性，并可以进一步提高模型的可监控性。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12460)查看 PDF (https://arxiv.org/pdf/2605.12460)项目页面 (https://huggingface.co/JonasGeiping/stream-qwen3.5-27b)GitHub2 (https://github.com/seal-rg/streaming)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12460)

在你的智能体中获取这篇论文：

hf papers read 2605\.12460

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.12460 以从此页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.12460 以从此页面链接。

引用此论文的空间0

没有链接此论文的空间

在空间的 README.md 中引用 arxiv.org/abs/2605.12460 以从此页面链接。

包含此论文的集合0

没有包含此论文的集合

将这篇论文添加到集合 (https://huggingface.co/new-collection)中，以从此页面链接。

多流大语言模型：通过并行思维、输入与输出流解锁语言模型的潜力

论文页面 - 多流大语言模型：通过平行的思维、输入和输出流解除语言模型的阻塞

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的集合0

相似文章

Multi-Stream LLMs：关于并行/分离提示、思考、I/O的新论文

ProactiveLLM: 学习主动交互的流式大语言模型

@jonasgeiping：我们训练模型的方式错了，这都是因为ChatGPT。即使日常使用的现代编码代理仍采用基于消息的…

X-Stream: 探索将MLLMs作为多流理解的多路复用器

释放全双工语音模型中LLM的能力

提交意见反馈