Qwen-Image-Agent:弥合真实图像生成中的上下文差距
摘要
Qwen-Image-Agent 提出了一种统一的代理框架,通过整合规划、推理、搜索和记忆机制,解决了文本到图像生成中的上下文差距问题。该框架引入了 IA-Bench 进行评估,并取得了最先进的性能。
查看缓存全文
缓存时间: 2026/06/26 02:04
论文页面 - Qwen-Image-Agent:弥合真实世界图像生成中的上下文鸿沟
来源:https://huggingface.co/papers/2606.26907 发布于6月25日
#1 每日论文 (https://huggingface.co/papers/date/2026-06-26) 作者:
,,
,,
,,
,,
,,
,,
,,
,,
,,
,,
,,
,,
,,
,,
,,
,,
,,
,,
摘要
提出了一种名为 Qwen-Image-Agent 的统一智能体框架,通过规划、推理、搜索和记忆机制逐步构建完整的生成上下文,以解决文本到图像生成中的上下文鸿沟问题。
尽管文本到图像生成(T2I)模型取得了显著进展,但它们在处理真实世界请求时仍面临困难,这些请求常常是不明确的、隐含的或依赖于最新知识。我们将这一挑战定义为上下文鸿沟(context gap) (https://huggingface.co/papers?q=Context%20Gap):用户上下文与 T2I 模型所需充分生成上下文之间的不匹配。为弥合这一鸿沟,我们提出了 Qwen-Image-Agent,一个以上下文为中心的统一智能体框架 (https://huggingface.co/papers?q=agentic%20framework),集成了规划 (https://huggingface.co/papers?q=plan)、推理 (https://huggingface.co/papers?q=reason)、搜索 (https://huggingface.co/papers?q=search)、记忆 (https://huggingface.co/papers?q=memory) 和反馈。Qwen-Image-Agent 将用户输入视为部分上下文,并通过上下文感知规划 (https://huggingface.co/papers?q=Context-Aware%20Planning) 和上下文构建 (https://huggingface.co/papers?q=Context%20Grounding) 逐步构建生成上下文。具体来说,上下文感知规划识别缺失的上下文并规划如何获取和使用它,而上下文构建则通过推理 (https://huggingface.co/papers?q=reason)、搜索 (https://huggingface.co/papers?q=search)、记忆 (https://huggingface.co/papers?q=memory) 和反馈来收集这些上下文。为了评估智能体图像生成,我们还引入了图像智能体基准 (Image Agent Bench, IA-Bench) (https://huggingface.co/papers?q=Image%20Agent%20Bench),这是一个涵盖四种核心图像智能体能力 (https://huggingface.co/papers?q=image%20agent%20capabilities) 的基准:规划 (Plan) (https://huggingface.co/papers?q=Plan)、推理 (Reason) (https://huggingface.co/papers?q=Reason)、搜索 (Search) (https://huggingface.co/papers?q=Search) 和记忆 (Memory) (https://huggingface.co/papers?q=Memory)。在 IA-Bench、Mindbench 和 WISE-Verified 上的实验表明,Qwen-Image-Agent 优于强基线方法,并取得了最先进的性能。
查看 arXiv 页面 (https://arxiv.org/abs/2606.26907)查看 PDF (https://arxiv.org/pdf/2606.26907)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.26907)
在你的智能体中获取这篇论文:
hf papers read 2606\.26907
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.26907 以在此页面建立链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.26907 以在此页面建立链接。
引用此论文的 Space0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.26907 以在此页面建立链接。
包含此论文的合集0
没有合集包含此论文
将此论文添加到一个合集 (https://huggingface.co/new-collection) 中以在此页面建立链接。
相似文章
Qwen-Image-2.0 技术报告
Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。
Qwen-Image-2.0 技术报告(阅读时长约57分钟)
本技术报告介绍了阿里巴巴Qwen团队推出的新图像生成模型Qwen-Image-2.0,详细阐述了其架构与能力。
Qwen/Qwen-AgentWorld-35B-A3B
Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。
Qwen3.7-Plus:多模态智能体 (36分钟阅读)
Qwen3.7-Plus 是一个多模态智能体模型,统一了视觉与语言,实现图形界面与命令行界面的无缝交互,现可通过阿里云模型服务平台使用。
Qwen-Image-Flash(26分钟阅读)
本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。