@AdinaYakup: 论文:
摘要
一个新的以创作者为中心的文本到图像生成基准,Qwen-Image-Bench,通过一个包含56个可验证方面的分层分类,由统一评判模型评分,评估模型在真实世界保真度和创意生成方面的表现。
查看缓存全文
缓存时间: 2026/05/29 13:46
@Alibaba_Qwen 论文: https://t.co/CvVB247nCy
论文页面 - Qwen-Image-Bench:从生成到创造,文本到图像评估的新基准
来源: https://huggingface.co/papers/2605.28091 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一个以创作者为中心的新型文本到图像生成基准,通过由专业标注训练的单一评判模型,基于56个可验证维度组成的层次化分类体系,评估模型在真实世界保真度和创造性生成方面的表现。
文本到图像生成(https://huggingface.co/papers?q=Text-to-Image%20generation)已从基础图像合成演变为专业创意工作流中频繁使用的核心能力,而简单的文本-图像对齐已无法满足用户对真实世界重建和原创性表达的迫切需求。然而,现有基准仍停留于这些基础标准,未能捕捉真实艺术实践中至关重要的细微能力,导致难以可靠区分最先进的 T2I 模型。针对这一差距,我们提出了 Qwen-Image-Bench,一个与专业艺术家共同设计、基于真实创作场景的以创作者为中心的基准(https://huggingface.co/papers?q=creator-centric%20benchmark)。Qwen-Image-Bench 通过两个应用驱动的维度丰富了传统评估:真实世界保真度(https://huggingface.co/papers?q=Real-world%20Fidelity)和创造性生成(https://huggingface.co/papers?q=Creative%20Generation)。借鉴专业艺术工作流中的阶段性推理,我们将这五大支柱组织成一个自上而下的层次化分类体系(https://huggingface.co/papers?q=hierarchical%20taxonomy),进一步分解为23个二级子能力和56个三级可验证指标。为确保广泛覆盖,我们精心设计了1000个分层提示,每个提示同时涉及多个支柱中的多个细粒度维度。我们训练了一个统一的评判模型(https://huggingface.co/papers?q=unified%20judge%20model)Q-Judger(https://huggingface.co/papers?q=Q-Judger),基于 Qwen3.6-27B(https://huggingface.co/papers?q=Qwen3.6-27B),由来自全球艺术院校的80名专业标注员(https://huggingface.co/papers?q=professional%20annotators)在盲标(https://huggingface.co/papers?q=blind%20labeling)和三审协议(https://huggingface.co/papers?q=tri-review%20protocols)下监督训练,对每张图像在所有56个可验证维度上进行评分,生成细粒度、基于标准且完全可归因的诊断结果,而非单一模糊的分数。实验表明,Qwen-Image-Bench 能够可靠地区分领先的 T2I 模型,在现有基准几乎无法提供洞察的两个应用驱动维度——真实世界保真度(https://huggingface.co/papers?q=Real-world%20Fidelity)和创造性生成(https://huggingface.co/papers?q=Creative%20Generation)——上实现了最大的区分度,同时为生产级 T2I 开发提供了值得信赖的优化信号。
查看 arXiv 页面 (https://arxiv.org/abs/2605.28091) 查看 PDF (https://arxiv.org/pdf/2605.28091) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28091)
在智能体中获取此论文:
hf papers read 2605.28091
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型1
Qwen/Qwen-Image-Bench 图像-文本到文本 • 27B • 更新于1天前 • 202 • 27 (https://huggingface.co/Qwen/Qwen-Image-Bench)
引用此论文的数据集1
Qwen/Qwen-Image-Bench 查看器 • 更新于1天前 • 1k • 5.78k • 7 (https://huggingface.co/datasets/Qwen/Qwen-Image-Bench)
引用此论文的 Space0
无 Space 引用此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.28091 以链接到此页面。
包含此论文的收藏0
无收藏包含此论文
将本论文添加到一个收藏 (https://huggingface.co/new-collection) 以链接到此页面。
相似文章
@AdinaYakup: Qwen @Alibaba_Qwen 刚刚发布了一个新的文本到图像基准测试和一个评判模型 https://huggingface.co/collections/Qwen/q…
Qwen 发布了一个新的文本到图像基准测试,包含56个细粒度评估维度,衡量超越提示对齐的创造力,并包含一个与人类对齐的评判模型。
@HuggingPapers: 阿里巴巴发布Qwen-Image-Flash,少步蒸馏超越目标,数据组成、教师指导和…
阿里巴巴发布了Qwen-Image-Flash,这是一种少步蒸馏模型,用于快速、高质量的文本到图像生成和指令引导编辑,利用了数据组成、教师指导和任务混合。
Qwen-Image-Flash(26分钟阅读)
本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。
Qwen-Image-2.0 技术报告
Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。
Qwen-Image-2.0 技术报告(阅读时长约57分钟)
本技术报告介绍了阿里巴巴Qwen团队推出的新图像生成模型Qwen-Image-2.0,详细阐述了其架构与能力。