multimodal-models

#multimodal-models

Blind-Spots-Bench：评估多模态模型中的盲点

arXiv cs.AI ↗ · 12小时前缓存

介绍Blind-Spots-Bench，这是一个旨在揭示现代多模态AI模型在人类认为简单的任务上持续失败的基准。评估了一系列模型，揭示了性能差距，并且没有单一模型在所有任务类型中占据主导地位。

0 人收藏 0 人点赞

#multimodal-models

TLDR AI ↗ · 昨天缓存

人工智能通过更便宜的传感器、机器人技术和多模态模型，正在实现从物理世界收集和处理以前无法访问的数据，在基础设施、医疗保健和工业自动化领域创建新的数据飞轮。

0 人收藏 0 人点赞

#multimodal-models

arXiv cs.LG ↗ · 2026-06-30 缓存

介绍了SciDraw-Bench，一个用于评估文本到图像和多模态模型生成科学图形的基准，采用四维评估协议。结果显示，领域专用系统优于通用模型，文本保真度仍然是最具挑战性的方面。

0 人收藏 0 人点赞

#multimodal-models

arXiv cs.AI ↗ · 2026-05-20 缓存

AQuaUI是一种无需训练、推理时即用的GUI代理模型令牌减少方法，利用自适应四叉树降低截图中的空间冗余，实现了高达13.22%的加速和29.52%的视觉令牌减少，同时保留了99.06%的性能。

0 人收藏 0 人点赞

#multimodal-models

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

视觉美学基准（VAB）通过对比选择评估多模态模型的审美判断能力，揭示其与人类专家的显著差距，并表明基于专家示例的微调可提升准确率。

0 人收藏 0 人点赞

#multimodal-models

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

本文介绍了 UNO，这是一种以理解为导向的后训练框架，利用理解任务作为监督信号，以增强统一多模态模型中的图像生成和编辑能力。

0 人收藏 0 人点赞

#multimodal-models

Hugging Face Daily Papers ↗ · 2026-04-22 缓存

研究者推出首个量化多模态模型生成式空间智能的基准 GSI-Bench，通过在图像生成过程中评估 3D 空间约束遵守情况来衡量能力。在合成数据集上微调可显著提升空间编辑保真度与下游空间理解，证明生成式训练能增强空间推理。

0 人收藏 0 人点赞