Qwen-Image-Agent：弥合真实图像生成中的上下文差距

Hugging Face Daily Papers 2026/06/25 00:00 论文

text-to-image-generation agentic-framework context-gap image-generation qwen benchmark

摘要

Qwen-Image-Agent 提出了一种统一的代理框架，通过整合规划、推理、搜索和记忆机制，解决了文本到图像生成中的上下文差距问题。该框架引入了 IA-Bench 进行评估，并取得了最先进的性能。

尽管文本到图像（T2I）模型取得了显著进展，但在处理现实世界的请求时仍存在困难，这些请求通常描述不充分、隐含或依赖最新知识。我们将这一挑战定义为上下文差距：用户上下文与 T2I 模型所需的充分生成上下文之间的不匹配。为了弥合这一差距，我们提出了 Qwen-Image-Agent，这是一个统一的代理框架，以上下文为中心的方式整合了规划、推理、搜索、记忆和反馈。Qwen-Image-Agent 将用户输入视为部分上下文，并通过上下文感知规划和上下文基础逐步构建生成上下文。具体而言，上下文感知规划识别缺失的上下文并规划如何获取和使用它，而上下文基础则通过推理、搜索、记忆和反馈来收集这些上下文。为了评估代理图像生成，我们进一步引入了 Image Agent Bench（IA-Bench），这是一个涵盖四项核心图像代理能力的基准：规划、推理、搜索和记忆。在 IA-Bench、Mindbench 和 WISE-Verified 上的实验表明，Qwen-Image-Agent 优于强基线方法，并取得了最先进的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/26 02:04

论文页面 - Qwen-Image-Agent：弥合真实世界图像生成中的上下文鸿沟

来源：https://huggingface.co/papers/2606.26907 发布于6月25日

#1 每日论文 (https://huggingface.co/papers/date/2026-06-26) 作者：

，，

摘要

提出了一种名为 Qwen-Image-Agent 的统一智能体框架，通过规划、推理、搜索和记忆机制逐步构建完整的生成上下文，以解决文本到图像生成中的上下文鸿沟问题。

尽管文本到图像生成（T2I）模型取得了显著进展，但它们在处理真实世界请求时仍面临困难，这些请求常常是不明确的、隐含的或依赖于最新知识。我们将这一挑战定义为上下文鸿沟（context gap） (https://huggingface.co/papers?q=Context%20Gap)：用户上下文与 T2I 模型所需充分生成上下文之间的不匹配。为弥合这一鸿沟，我们提出了 Qwen-Image-Agent，一个以上下文为中心的统一智能体框架 (https://huggingface.co/papers?q=agentic%20framework)，集成了规划 (https://huggingface.co/papers?q=plan)、推理 (https://huggingface.co/papers?q=reason)、搜索 (https://huggingface.co/papers?q=search)、记忆 (https://huggingface.co/papers?q=memory) 和反馈。Qwen-Image-Agent 将用户输入视为部分上下文，并通过上下文感知规划 (https://huggingface.co/papers?q=Context-Aware%20Planning) 和上下文构建 (https://huggingface.co/papers?q=Context%20Grounding) 逐步构建生成上下文。具体来说，上下文感知规划识别缺失的上下文并规划如何获取和使用它，而上下文构建则通过推理 (https://huggingface.co/papers?q=reason)、搜索 (https://huggingface.co/papers?q=search)、记忆 (https://huggingface.co/papers?q=memory) 和反馈来收集这些上下文。为了评估智能体图像生成，我们还引入了图像智能体基准 (Image Agent Bench, IA-Bench) (https://huggingface.co/papers?q=Image%20Agent%20Bench)，这是一个涵盖四种核心图像智能体能力 (https://huggingface.co/papers?q=image%20agent%20capabilities) 的基准：规划 (Plan) (https://huggingface.co/papers?q=Plan)、推理 (Reason) (https://huggingface.co/papers?q=Reason)、搜索 (Search) (https://huggingface.co/papers?q=Search) 和记忆 (Memory) (https://huggingface.co/papers?q=Memory)。在 IA-Bench、Mindbench 和 WISE-Verified 上的实验表明，Qwen-Image-Agent 优于强基线方法，并取得了最先进的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2606.26907)查看 PDF (https://arxiv.org/pdf/2606.26907)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.26907)

在你的智能体中获取这篇论文：

hf papers read 2606\.26907

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.26907 以在此页面建立链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.26907 以在此页面建立链接。

引用此论文的 Space0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.26907 以在此页面建立链接。

包含此论文的合集0

没有合集包含此论文

将此论文添加到一个合集 (https://huggingface.co/new-collection) 中以在此页面建立链接。

Qwen-Image-Agent：弥合真实图像生成中的上下文差距

论文页面 - Qwen-Image-Agent：弥合真实世界图像生成中的上下文鸿沟

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的合集0

相似文章

Qwen-Image-2.0 技术报告

Qwen-Image-2.0 技术报告（阅读时长约57分钟）

Qwen/Qwen-AgentWorld-35B-A3B

Qwen3.7-Plus：多模态智能体 (36分钟阅读)

Qwen-Image-Flash（26分钟阅读）

提交意见反馈