@AdinaYakup: 论文:

X AI KOLs Following 论文

摘要

一个新的以创作者为中心的文本到图像生成基准,Qwen-Image-Bench,通过一个包含56个可验证方面的分层分类,由统一评判模型评分,评估模型在真实世界保真度和创意生成方面的表现。

@Alibaba_Qwen 论文: https://t.co/CvVB247nCy
查看原文
查看缓存全文

缓存时间: 2026/05/29 13:46

@Alibaba_Qwen 论文: https://t.co/CvVB247nCy


论文页面 - Qwen-Image-Bench:从生成到创造,文本到图像评估的新基准

来源: https://huggingface.co/papers/2605.28091 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

一个以创作者为中心的新型文本到图像生成基准,通过由专业标注训练的单一评判模型,基于56个可验证维度组成的层次化分类体系,评估模型在真实世界保真度和创造性生成方面的表现。

文本到图像生成(https://huggingface.co/papers?q=Text-to-Image%20generation)已从基础图像合成演变为专业创意工作流中频繁使用的核心能力,而简单的文本-图像对齐已无法满足用户对真实世界重建和原创性表达的迫切需求。然而,现有基准仍停留于这些基础标准,未能捕捉真实艺术实践中至关重要的细微能力,导致难以可靠区分最先进的 T2I 模型。针对这一差距,我们提出了 Qwen-Image-Bench,一个与专业艺术家共同设计、基于真实创作场景的以创作者为中心的基准(https://huggingface.co/papers?q=creator-centric%20benchmark)。Qwen-Image-Bench 通过两个应用驱动的维度丰富了传统评估:真实世界保真度(https://huggingface.co/papers?q=Real-world%20Fidelity)和创造性生成(https://huggingface.co/papers?q=Creative%20Generation)。借鉴专业艺术工作流中的阶段性推理,我们将这五大支柱组织成一个自上而下的层次化分类体系(https://huggingface.co/papers?q=hierarchical%20taxonomy),进一步分解为23个二级子能力和56个三级可验证指标。为确保广泛覆盖,我们精心设计了1000个分层提示,每个提示同时涉及多个支柱中的多个细粒度维度。我们训练了一个统一的评判模型(https://huggingface.co/papers?q=unified%20judge%20model)Q-Judger(https://huggingface.co/papers?q=Q-Judger),基于 Qwen3.6-27B(https://huggingface.co/papers?q=Qwen3.6-27B),由来自全球艺术院校的80名专业标注员(https://huggingface.co/papers?q=professional%20annotators)在盲标(https://huggingface.co/papers?q=blind%20labeling)和三审协议(https://huggingface.co/papers?q=tri-review%20protocols)下监督训练,对每张图像在所有56个可验证维度上进行评分,生成细粒度、基于标准且完全可归因的诊断结果,而非单一模糊的分数。实验表明,Qwen-Image-Bench 能够可靠地区分领先的 T2I 模型,在现有基准几乎无法提供洞察的两个应用驱动维度——真实世界保真度(https://huggingface.co/papers?q=Real-world%20Fidelity)和创造性生成(https://huggingface.co/papers?q=Creative%20Generation)——上实现了最大的区分度,同时为生产级 T2I 开发提供了值得信赖的优化信号。

查看 arXiv 页面 (https://arxiv.org/abs/2605.28091) 查看 PDF (https://arxiv.org/pdf/2605.28091) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28091)

在智能体中获取此论文:

hf papers read 2605.28091

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

Qwen/Qwen-Image-Bench 图像-文本到文本 • 27B • 更新于1天前 • 202 • 27 (https://huggingface.co/Qwen/Qwen-Image-Bench)

引用此论文的数据集1

Qwen/Qwen-Image-Bench 查看器 • 更新于1天前 • 1k • 5.78k • 7 (https://huggingface.co/datasets/Qwen/Qwen-Image-Bench)

引用此论文的 Space0

无 Space 引用此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.28091 以链接到此页面。

包含此论文的收藏0

无收藏包含此论文

将本论文添加到一个收藏 (https://huggingface.co/new-collection) 以链接到此页面。

相似文章

Qwen-Image-Flash(26分钟阅读)

TLDR AI

本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。

Qwen-Image-2.0 技术报告

Hugging Face Daily Papers

Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。