Qwen-Image-Agent:弥合真实图像生成中的上下文差距

Hugging Face Daily Papers 论文

摘要

Qwen-Image-Agent 提出了一种统一的代理框架,通过整合规划、推理、搜索和记忆机制,解决了文本到图像生成中的上下文差距问题。该框架引入了 IA-Bench 进行评估,并取得了最先进的性能。

尽管文本到图像(T2I)模型取得了显著进展,但在处理现实世界的请求时仍存在困难,这些请求通常描述不充分、隐含或依赖最新知识。我们将这一挑战定义为上下文差距:用户上下文与 T2I 模型所需的充分生成上下文之间的不匹配。为了弥合这一差距,我们提出了 Qwen-Image-Agent,这是一个统一的代理框架,以上下文为中心的方式整合了规划、推理、搜索、记忆和反馈。Qwen-Image-Agent 将用户输入视为部分上下文,并通过上下文感知规划和上下文基础逐步构建生成上下文。具体而言,上下文感知规划识别缺失的上下文并规划如何获取和使用它,而上下文基础则通过推理、搜索、记忆和反馈来收集这些上下文。为了评估代理图像生成,我们进一步引入了 Image Agent Bench(IA-Bench),这是一个涵盖四项核心图像代理能力的基准:规划、推理、搜索和记忆。在 IA-Bench、Mindbench 和 WISE-Verified 上的实验表明,Qwen-Image-Agent 优于强基线方法,并取得了最先进的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/26 02:04

论文页面 - Qwen-Image-Agent:弥合真实世界图像生成中的上下文鸿沟

来源:https://huggingface.co/papers/2606.26907 发布于6月25日

#1 每日论文 (https://huggingface.co/papers/date/2026-06-26) 作者:

,,

,,

,,

,,

,,

,,

,,

,,

,,

,,

,,

,,

,,

,,

,,

,,

,,

,,

摘要

提出了一种名为 Qwen-Image-Agent 的统一智能体框架,通过规划、推理、搜索和记忆机制逐步构建完整的生成上下文,以解决文本到图像生成中的上下文鸿沟问题。

尽管文本到图像生成(T2I)模型取得了显著进展,但它们在处理真实世界请求时仍面临困难,这些请求常常是不明确的、隐含的或依赖于最新知识。我们将这一挑战定义为上下文鸿沟(context gap) (https://huggingface.co/papers?q=Context%20Gap):用户上下文与 T2I 模型所需充分生成上下文之间的不匹配。为弥合这一鸿沟,我们提出了 Qwen-Image-Agent,一个以上下文为中心的统一智能体框架 (https://huggingface.co/papers?q=agentic%20framework),集成了规划 (https://huggingface.co/papers?q=plan)、推理 (https://huggingface.co/papers?q=reason)、搜索 (https://huggingface.co/papers?q=search)、记忆 (https://huggingface.co/papers?q=memory) 和反馈。Qwen-Image-Agent 将用户输入视为部分上下文,并通过上下文感知规划 (https://huggingface.co/papers?q=Context-Aware%20Planning) 和上下文构建 (https://huggingface.co/papers?q=Context%20Grounding) 逐步构建生成上下文。具体来说,上下文感知规划识别缺失的上下文并规划如何获取和使用它,而上下文构建则通过推理 (https://huggingface.co/papers?q=reason)、搜索 (https://huggingface.co/papers?q=search)、记忆 (https://huggingface.co/papers?q=memory) 和反馈来收集这些上下文。为了评估智能体图像生成,我们还引入了图像智能体基准 (Image Agent Bench, IA-Bench) (https://huggingface.co/papers?q=Image%20Agent%20Bench),这是一个涵盖四种核心图像智能体能力 (https://huggingface.co/papers?q=image%20agent%20capabilities) 的基准:规划 (Plan) (https://huggingface.co/papers?q=Plan)、推理 (Reason) (https://huggingface.co/papers?q=Reason)、搜索 (Search) (https://huggingface.co/papers?q=Search) 和记忆 (Memory) (https://huggingface.co/papers?q=Memory)。在 IA-Bench、Mindbench 和 WISE-Verified 上的实验表明,Qwen-Image-Agent 优于强基线方法,并取得了最先进的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2606.26907)查看 PDF (https://arxiv.org/pdf/2606.26907)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.26907)

在你的智能体中获取这篇论文:

hf papers read 2606\.26907

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.26907 以在此页面建立链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.26907 以在此页面建立链接。

引用此论文的 Space0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.26907 以在此页面建立链接。

包含此论文的合集0

没有合集包含此论文

将此论文添加到一个合集 (https://huggingface.co/new-collection) 中以在此页面建立链接。

相似文章

Qwen-Image-2.0 技术报告

Hugging Face Daily Papers

Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。

Qwen/Qwen-AgentWorld-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。

Qwen-Image-Flash(26分钟阅读)

TLDR AI

本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。