InterleaveThinker: 增强智能体交错生成

Hugging Face Daily Papers 2026/06/11 00:00 论文

interleaved-generation multi-agent image-generation planner-agent critic-agent reinforcement-learning grpo

摘要

InterleaveThinker 引入了一种多智能体流水线，包含规划器和评论家智能体，使现有图像生成器具备交错文本-图像生成能力，其性能与最先进模型相当，并提升了推理基准测试成绩。

近年来的图像生成器在单图像生成和编辑方面展现了令人惊叹的照片级真实感和指令遵循能力。然而，受限于其架构，它们无法实现交错生成（文本-图像序列），而这一能力在视觉叙事、指导和具身操作等关键应用中不可或缺。即使是最新开源统一多模态模型（UMMs）在这方面的表现也较为有限。本文提出 InterleaveThinker，这是首个旨在赋予任何现有图像生成器交错生成能力的多智能体流水线。具体而言，我们采用规划器智能体来组织图像-文本输入序列，指导图像生成器按步骤执行所需操作。随后，我们引入评论家智能体来评估生成器的输出，识别偏离规划指令的样本，并优化指令以进行重新生成。为实现该流水线，我们构建了 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 以进行格式冷启动。之后，我们开发了 Interleave-Critic-RL-13k，通过 GRPO 在生成轨迹中增强逐步指令修正能力。由于单个交错生成轨迹可能涉及超过 25 次生成器调用，优化整个轨迹在计算上不切实际。因此，我们提出了准确率奖励和逐步奖励，使单步强化学习能够有效引导整个生成轨迹。结果表明，InterleaveThinker 提升了多种图像生成器的性能。在交错生成基准测试中，其表现可与 Nano Banana 和 GPT-5 相媲美。令人惊讶的是，它还显著增强了基础模型在推理型基准测试上的表现；例如，在 4 步 FLUX.2-klein 上，我们在 WISE 和 RISE 上观察到了显著提升。

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - InterleaveThinker：强化智能代理交错生成

来源：https://huggingface.co/papers/2606.13679

摘要

InterleaveThinker 通过一个由规划器和评论家代理组成的多代理管道，为图像生成器赋予交错生成能力，在提升推理基准的同时，实现了与最先进模型相当的性能。

最近的图像生成器（https://huggingface.co/papers?q=image%20generator）在单图像生成和编辑方面展现了令人印象深刻的照片级真实感和指令跟随能力。然而，受限于其架构，它们无法实现交错生成（https://huggingface.co/papers?q=interleaved%20generation）（文本-图像序列），而该能力在视觉叙事、引导和具身操作中具有重要应用。即使是最近的开源统一多模态模型（UMMs）在这方面表现也十分有限。在本文中，我们介绍了 InterleaveThinker，这是首个旨在使任意现有图像生成器（https://huggingface.co/papers?q=image%20generator）具备交错生成（https://huggingface.co/papers?q=interleaved%20generation）能力的多代理管道（https://huggingface.co/papers?q=multi-agent%20pipeline）。具体来说，我们使用一个规划器代理（https://huggingface.co/papers?q=planner%20agent）来组织图像-文本输入序列，指示图像生成器（https://huggingface.co/papers?q=image%20generator）每一步需要执行的操作。随后，我们引入一个评论家代理（https://huggingface.co/papers?q=critic%20agent）来评估生成器的输出，识别偏离规划指令的样本，并优化指令以供重新生成。为实现这一管道，我们构建了 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 以进行格式冷启动。接着，我们开发了 Interleave-Critic-RL-13k，利用 GRPO（https://huggingface.co/papers?q=GRPO）在单个生成轨迹内强化逐步指令修正能力。由于一次交错生成（https://huggingface.co/papers?q=interleaved%20generation）轨迹可能涉及超过 25 次生成器调用，优化整个轨迹在计算上是不切实际的。因此，我们提出准确性奖励（https://huggingface.co/papers?q=accuracy%20reward）和逐步奖励（https://huggingface.co/papers?q=step-wise%20reward），使得单步强化学习能够有效指导整个生成轨迹。结果表明，InterleaveThinker 提升了多种图像生成器（https://huggingface.co/papers?q=image%20generator）的性能。在交错生成（https://huggingface.co/papers?q=interleaved%20generation）基准上，其表现与 Nano Banana 和 GPT-5 相当。令人惊讶的是，它还显著增强了基础模型在基于推理的基准上的表现；例如，在 4 步 FLUX.2-klein 上，我们在 WISE 和 RISE 上观察到了大幅提升。

查看 arXiv 页面（https://arxiv.org/abs/2606.13679）查看 PDF（https://arxiv.org/pdf/2606.13679）项目页面（https://zhengdian1.github.io/InterleaveThinker-proj/）GitHub（https://github.com/zhengdian1/InterleaveThinker）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.13679）

在您的代理中获取此论文：

hf papers read 2606.13679

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型3

InterleaveThinker/InterleaveThinker-Planner-8B 图像-文本-文本 • 770k • 更新于 37 分钟前（https://huggingface.co/InterleaveThinker/InterleaveThinker-Planner-8B）

InterleaveThinker/InterleaveThinker-Critic-8B 图像-文本-文本 • 9B • 更新于 37 分钟前（https://huggingface.co/InterleaveThinker/InterleaveThinker-Critic-8B）

InterleaveThinker/Critic-SFT-8B 图像-文本-文本 • 770k • 更新于 37 分钟前（https://huggingface.co/InterleaveThinker/Critic-SFT-8B）

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.13679，以便从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.13679，以便从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）以从此页面链接。

InterleaveThinker: 增强智能体交错生成

论文页面 - InterleaveThinker：强化智能代理交错生成

摘要

引用此论文的模型3

InterleaveThinker/InterleaveThinker-Planner-8B 图像-文本-文本 • 770k • 更新于 37 分钟前（https://huggingface.co/InterleaveThinker/InterleaveThinker-Planner-8B）

InterleaveThinker/InterleaveThinker-Critic-8B 图像-文本-文本 • 9B • 更新于 37 分钟前（https://huggingface.co/InterleaveThinker/InterleaveThinker-Critic-8B）

InterleaveThinker/Critic-SFT-8B 图像-文本-文本 • 770k • 更新于 37 分钟前（https://huggingface.co/InterleaveThinker/Critic-SFT-8B）

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏0

相似文章

图像即句子：扩展交错指令以实现统一的视觉生成

Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation

TTE-Flash：通过先思后嵌入令牌加速基于推理的多模态表示

Visual Para-Thinker++: 视觉推理的单策略多智能体框架

ETCHR：编辑以澄清和利用推理

提交意见反馈