视觉美学基准:前沿模型能否评判美感?

Hugging Face Daily Papers 论文

摘要

视觉美学基准(VAB)通过对比选择评估多模态模型的审美判断能力,揭示其与人类专家的显著差距,并表明基于专家示例的微调可提升准确率。

多模态大语言模型(MLLM)现已广泛部署于视觉理解、生成和策展任务中。这类应用中有相当一部分需要明确的审美判断。现有方法大多简化为针对单张图像预测一个标量分数。我们首先提出问题:这样的分数是否能够忠实地反映比较性偏好?在一项由八位专家标注员参与的受控研究中,基于分数得出的排名与同一批标注员直接比较的结果一致性较差,而直接排名在最佳和最差图像标签上获得了显著更高的标注者间一致性。基于这一发现,我们提出了视觉美学基准(VAB),将美学评估转化为对主题内容匹配的候选集进行对比选择。VAB包含400个任务和1,195张图像,涵盖纯艺术、摄影和插画,其标签来源于每个任务中10位独立专家评审的共识。在评估了20个前沿MLLM和6个专用视觉质量奖励模型后,我们发现,最强系统在候选顺序的三种随机排列下,仅有26.5%的任务能同时正确识别最佳和最差图像,远低于人类专家68.9%的正确率。在2,000个专家示例上微调一个350亿参数的模型后,其准确率接近一个3970亿参数的开源权重模型,这表明VAB中的比较信号具有可迁移性。综上,这些结果揭示了当前多模态模型与专家审美判断之间清晰且可量化的差距,而VAB为追踪并弥合这一差距提供了首个基于集合、基于专家的测试平台。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - 视觉美学基准:前沿模型能否评判美?

来源:https://huggingface.co/papers/2605.12684 作者:

摘要

当前多模态模型在图像比较选择任务中难以匹配人类专家审美判断,视觉美学基准揭示了显著的性能差距,并表明基于专家样本的微调可提升准确率。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%20models) 现已在视觉理解、生成与策展中常规部署。这些应用中很大一部分需要明确的审美判断。现有大多解决方案将此判断简化为为单张图像预测一个标量分数。我们首先探究这类分数是否忠实捕捉了比较偏好:在八位专家标注者的受控研究中,基于分数推导的排序与同一标注者的直接比较一致性较差,而直接排序在最佳与最差图像标签上能获得更高的标注者间一致性。受此发现启发,我们引入了视觉美学基准 (https://huggingface.co/papers?q=Visual%20Aesthetic%20Benchmark) (VAB),将美学评估转化为对主题匹配候选集的比较选择 (https://huggingface.co/papers?q=comparative%20selection)。VAB 包含 400 个任务和 1,195 张图像,涵盖美术、摄影和插画,标签来自每项任务中 10 位独立专家评审的共识。评估 20 个前沿 MLLM 和六个专用视觉质量奖励模型后,我们发现最强的系统在候选顺序三次随机排列中仅能在 26.5% 的任务里同时正确识别最佳和最差图像,远低于人类专家达成的 68.9%。在 2,000 个专家样本上微调 35B 参数模型可将其准确率提升至接近 397B 参数开放权重模型的水平,表明 VAB 中的比较信号具有可迁移性。综合来看,这些结果暴露了当前多模态模型与专家审美判断之间清晰可测的鸿沟,VAB 提供了首个基于集合、以专家为基准的测试平台,可用于追踪并弥合这一鸿沟。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12684) 查看 PDF (https://arxiv.org/pdf/2605.12684) 项目页面 (https://vab.bakelab.ai/) GitHub29 (https://github.com/BakeLab/Visual-Aesthetic-Benchmark) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12684)

引用此论文的模型 0

暂无与该论文关联的模型

请在模型 README.md 中引用 arxiv.org/abs/2605.12684,以便从此页面链接。

引用此论文的数据集 0

暂无与该论文关联的数据集

请在数据集 README.md 中引用 arxiv.org/abs/2605.12684,以便从此页面链接。

引用此论文的 Space 0

暂无与该论文关联的 Space

请在 Space README.md 中引用 arxiv.org/abs/2605.12684,以便从此页面链接。

包含此论文的收藏 0

暂无包含此论文的收藏

请将此论文添加到收藏 (https://huggingface.co/new-collection) 中,以便从此页面链接。

相似文章

VEFX-Bench:通用视频编辑与视觉特效的全方位基准

Hugging Face Daily Papers

VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。