InterleaveThinker: 增强智能体交错生成
摘要
InterleaveThinker 引入了一种多智能体流水线,包含规划器和评论家智能体,使现有图像生成器具备交错文本-图像生成能力,其性能与最先进模型相当,并提升了推理基准测试成绩。
查看缓存全文
缓存时间: 2026/06/12 02:52
论文页面 - InterleaveThinker:强化智能代理交错生成
来源:https://huggingface.co/papers/2606.13679
摘要
InterleaveThinker 通过一个由规划器和评论家代理组成的多代理管道,为图像生成器赋予交错生成能力,在提升推理基准的同时,实现了与最先进模型相当的性能。
最近的图像生成器(https://huggingface.co/papers?q=image%20generator)在单图像生成和编辑方面展现了令人印象深刻的照片级真实感和指令跟随能力。然而,受限于其架构,它们无法实现交错生成(https://huggingface.co/papers?q=interleaved%20generation)(文本-图像序列),而该能力在视觉叙事、引导和具身操作中具有重要应用。即使是最近的开源统一多模态模型(UMMs)在这方面表现也十分有限。在本文中,我们介绍了 InterleaveThinker,这是首个旨在使任意现有图像生成器(https://huggingface.co/papers?q=image%20generator)具备交错生成(https://huggingface.co/papers?q=interleaved%20generation)能力的多代理管道(https://huggingface.co/papers?q=multi-agent%20pipeline)。具体来说,我们使用一个规划器代理(https://huggingface.co/papers?q=planner%20agent)来组织图像-文本输入序列,指示图像生成器(https://huggingface.co/papers?q=image%20generator)每一步需要执行的操作。随后,我们引入一个评论家代理(https://huggingface.co/papers?q=critic%20agent)来评估生成器的输出,识别偏离规划指令的样本,并优化指令以供重新生成。为实现这一管道,我们构建了 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 以进行格式冷启动。接着,我们开发了 Interleave-Critic-RL-13k,利用 GRPO(https://huggingface.co/papers?q=GRPO)在单个生成轨迹内强化逐步指令修正能力。由于一次交错生成(https://huggingface.co/papers?q=interleaved%20generation)轨迹可能涉及超过 25 次生成器调用,优化整个轨迹在计算上是不切实际的。因此,我们提出准确性奖励(https://huggingface.co/papers?q=accuracy%20reward)和逐步奖励(https://huggingface.co/papers?q=step-wise%20reward),使得单步强化学习能够有效指导整个生成轨迹。结果表明,InterleaveThinker 提升了多种图像生成器(https://huggingface.co/papers?q=image%20generator)的性能。在交错生成(https://huggingface.co/papers?q=interleaved%20generation)基准上,其表现与 Nano Banana 和 GPT-5 相当。令人惊讶的是,它还显著增强了基础模型在基于推理的基准上的表现;例如,在 4 步 FLUX.2-klein 上,我们在 WISE 和 RISE 上观察到了大幅提升。
查看 arXiv 页面(https://arxiv.org/abs/2606.13679)查看 PDF(https://arxiv.org/pdf/2606.13679)项目页面(https://zhengdian1.github.io/InterleaveThinker-proj/)GitHub(https://github.com/zhengdian1/InterleaveThinker)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.13679)
在您的代理中获取此论文:
hf papers read 2606.13679
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型3
InterleaveThinker/InterleaveThinker-Planner-8B 图像-文本-文本 • 770k • 更新于 37 分钟前(https://huggingface.co/InterleaveThinker/InterleaveThinker-Planner-8B)
InterleaveThinker/InterleaveThinker-Critic-8B 图像-文本-文本 • 9B • 更新于 37 分钟前(https://huggingface.co/InterleaveThinker/InterleaveThinker-Critic-8B)
InterleaveThinker/Critic-SFT-8B 图像-文本-文本 • 770k • 更新于 37 分钟前(https://huggingface.co/InterleaveThinker/Critic-SFT-8B)
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.13679,以便从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.13679,以便从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
图像即句子:扩展交错指令以实现统一的视觉生成
本文介绍了 INSET,这是一个统一的多模态模型,它将图像作为原生词汇嵌入到文本指令中,从而提高了在图像生成和编辑任务中处理复杂交错输入的能力。
Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation
This paper introduces InterRS, a method for real-time speech generation that interleaves reasoning steps during natural pauses in speech, achieving better performance on math and logic benchmarks while maintaining fluent and instant responses.
TTE-Flash:通过先思后嵌入令牌加速基于推理的多模态表示
论文介绍了TTE-Flash,一种用潜在思考令牌替换显式思维链推理的方法,以恒定推理成本生成推理感知的多模态表示,在MMEB-v2基准测试上优于显式CoT基线。
Visual Para-Thinker++: 视觉推理的单策略多智能体框架
Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架,该框架使用角色条件化智能体(主智能体、工作智能体、汇总智能体)和专用训练方法,以减少幻觉并提高效率,在幻觉敏感基准测试上优于基线。
ETCHR:编辑以澄清和利用推理
ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。