视觉美学基准:前沿模型能否评判美感?
摘要
视觉美学基准(VAB)通过对比选择评估多模态模型的审美判断能力,揭示其与人类专家的显著差距,并表明基于专家示例的微调可提升准确率。
查看缓存全文
缓存时间: 2026/05/14 04:16
论文页面 - 视觉美学基准:前沿模型能否评判美?
来源:https://huggingface.co/papers/2605.12684 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
当前多模态模型在图像比较选择任务中难以匹配人类专家审美判断,视觉美学基准揭示了显著的性能差距,并表明基于专家样本的微调可提升准确率。
多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%20models) 现已在视觉理解、生成与策展中常规部署。这些应用中很大一部分需要明确的审美判断。现有大多解决方案将此判断简化为为单张图像预测一个标量分数。我们首先探究这类分数是否忠实捕捉了比较偏好:在八位专家标注者的受控研究中,基于分数推导的排序与同一标注者的直接比较一致性较差,而直接排序在最佳与最差图像标签上能获得更高的标注者间一致性。受此发现启发,我们引入了视觉美学基准 (https://huggingface.co/papers?q=Visual%20Aesthetic%20Benchmark) (VAB),将美学评估转化为对主题匹配候选集的比较选择 (https://huggingface.co/papers?q=comparative%20selection)。VAB 包含 400 个任务和 1,195 张图像,涵盖美术、摄影和插画,标签来自每项任务中 10 位独立专家评审的共识。评估 20 个前沿 MLLM 和六个专用视觉质量奖励模型后,我们发现最强的系统在候选顺序三次随机排列中仅能在 26.5% 的任务里同时正确识别最佳和最差图像,远低于人类专家达成的 68.9%。在 2,000 个专家样本上微调 35B 参数模型可将其准确率提升至接近 397B 参数开放权重模型的水平,表明 VAB 中的比较信号具有可迁移性。综合来看,这些结果暴露了当前多模态模型与专家审美判断之间清晰可测的鸿沟,VAB 提供了首个基于集合、以专家为基准的测试平台,可用于追踪并弥合这一鸿沟。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12684) 查看 PDF (https://arxiv.org/pdf/2605.12684) 项目页面 (https://vab.bakelab.ai/) GitHub29 (https://github.com/BakeLab/Visual-Aesthetic-Benchmark) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12684)
引用此论文的模型 0
暂无与该论文关联的模型
请在模型 README.md 中引用 arxiv.org/abs/2605.12684,以便从此页面链接。
引用此论文的数据集 0
暂无与该论文关联的数据集
请在数据集 README.md 中引用 arxiv.org/abs/2605.12684,以便从此页面链接。
引用此论文的 Space 0
暂无与该论文关联的 Space
请在 Space README.md 中引用 arxiv.org/abs/2605.12684,以便从此页面链接。
包含此论文的收藏 0
暂无包含此论文的收藏
请将此论文添加到收藏 (https://huggingface.co/new-collection) 中,以便从此页面链接。
相似文章
VEFX-Bench:通用视频编辑与视觉特效的全方位基准
VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。
TableVista:在视觉和结构复杂性下对多模态表格推理进行基准测试
介绍了 TableVista,这是一个全面的基准测试,用于评估基础模型在视觉和结构复杂性下的多模态表格推理能力,包含 3,000 个问题,扩展为 30,000 个多模态样本。对 29 个模型的评估显示,在复杂布局和仅视觉设置下性能有所下降。
AI模型构建者的不稳定指标与基准测试文化
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。
WildTableBench:在真实场景中评估多模态基础模型的表格理解能力
WildTableBench 提出了首个针对真实世界表格图像的问答应答基准,揭示了现有多模态基础模型在结构感知和数值推理方面存在显著困难,仅有1个模型准确率超过50%。