@AdinaYakup: 论文：

X AI KOLs Following 2026/05/28 14:39 论文

text-to-image benchmark evaluation qwen generative-ai hierarchical-taxonomy

摘要

一个新的以创作者为中心的文本到图像生成基准，Qwen-Image-Bench，通过一个包含56个可验证方面的分层分类，由统一评判模型评分，评估模型在真实世界保真度和创意生成方面的表现。

@Alibaba_Qwen 论文： https://t.co/CvVB247nCy

查看原文

查看缓存全文

缓存时间: 2026/05/29 13:46

@Alibaba_Qwen 论文: https://t.co/CvVB247nCy

论文页面 - Qwen-Image-Bench：从生成到创造，文本到图像评估的新基准

来源: https://huggingface.co/papers/2605.28091 作者:

摘要

一个以创作者为中心的新型文本到图像生成基准，通过由专业标注训练的单一评判模型，基于56个可验证维度组成的层次化分类体系，评估模型在真实世界保真度和创造性生成方面的表现。

文本到图像生成（https://huggingface.co/papers?q=Text-to-Image%20generation）已从基础图像合成演变为专业创意工作流中频繁使用的核心能力，而简单的文本-图像对齐已无法满足用户对真实世界重建和原创性表达的迫切需求。然而，现有基准仍停留于这些基础标准，未能捕捉真实艺术实践中至关重要的细微能力，导致难以可靠区分最先进的 T2I 模型。针对这一差距，我们提出了 Qwen-Image-Bench，一个与专业艺术家共同设计、基于真实创作场景的以创作者为中心的基准（https://huggingface.co/papers?q=creator-centric%20benchmark）。Qwen-Image-Bench 通过两个应用驱动的维度丰富了传统评估：真实世界保真度（https://huggingface.co/papers?q=Real-world%20Fidelity）和创造性生成（https://huggingface.co/papers?q=Creative%20Generation）。借鉴专业艺术工作流中的阶段性推理，我们将这五大支柱组织成一个自上而下的层次化分类体系（https://huggingface.co/papers?q=hierarchical%20taxonomy），进一步分解为23个二级子能力和56个三级可验证指标。为确保广泛覆盖，我们精心设计了1000个分层提示，每个提示同时涉及多个支柱中的多个细粒度维度。我们训练了一个统一的评判模型（https://huggingface.co/papers?q=unified%20judge%20model）Q-Judger（https://huggingface.co/papers?q=Q-Judger），基于 Qwen3.6-27B（https://huggingface.co/papers?q=Qwen3.6-27B），由来自全球艺术院校的80名专业标注员（https://huggingface.co/papers?q=professional%20annotators）在盲标（https://huggingface.co/papers?q=blind%20labeling）和三审协议（https://huggingface.co/papers?q=tri-review%20protocols）下监督训练，对每张图像在所有56个可验证维度上进行评分，生成细粒度、基于标准且完全可归因的诊断结果，而非单一模糊的分数。实验表明，Qwen-Image-Bench 能够可靠地区分领先的 T2I 模型，在现有基准几乎无法提供洞察的两个应用驱动维度——真实世界保真度（https://huggingface.co/papers?q=Real-world%20Fidelity）和创造性生成（https://huggingface.co/papers?q=Creative%20Generation）——上实现了最大的区分度，同时为生产级 T2I 开发提供了值得信赖的优化信号。

查看 arXiv 页面 (https://arxiv.org/abs/2605.28091) 查看 PDF (https://arxiv.org/pdf/2605.28091) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28091)

在智能体中获取此论文：

hf papers read 2605.28091

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

Qwen/Qwen-Image-Bench 图像-文本到文本 • 27B • 更新于1天前 • 202 • 27 (https://huggingface.co/Qwen/Qwen-Image-Bench)

引用此论文的数据集1

Qwen/Qwen-Image-Bench 查看器 • 更新于1天前 • 1k • 5.78k • 7 (https://huggingface.co/datasets/Qwen/Qwen-Image-Bench)

引用此论文的 Space0

无 Space 引用此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.28091 以链接到此页面。

包含此论文的收藏0

无收藏包含此论文

将本论文添加到一个收藏 (https://huggingface.co/new-collection) 以链接到此页面。

@AdinaYakup: 论文：

论文页面 - Qwen-Image-Bench：从生成到创造，文本到图像评估的新基准

摘要

引用此论文的模型1

Qwen/Qwen-Image-Bench 图像-文本到文本 • 27B • 更新于1天前 • 202 • 27 (https://huggingface.co/Qwen/Qwen-Image-Bench)

引用此论文的数据集1

Qwen/Qwen-Image-Bench 查看器 • 更新于1天前 • 1k • 5.78k • 7 (https://huggingface.co/datasets/Qwen/Qwen-Image-Bench)

引用此论文的 Space0

包含此论文的收藏0

相似文章

@AdinaYakup: Qwen @Alibaba_Qwen 刚刚发布了一个新的文本到图像基准测试和一个评判模型 https://huggingface.co/collections/Qwen/q…

@HuggingPapers: 阿里巴巴发布Qwen-Image-Flash，少步蒸馏超越目标，数据组成、教师指导和…

Qwen-Image-Flash（26分钟阅读）

Qwen-Image-2.0 技术报告

Qwen-Image-2.0 技术报告（阅读时长约57分钟）

提交意见反馈