标签
视觉美学基准(VAB)通过对比选择评估多模态模型的审美判断能力,揭示其与人类专家的显著差距,并表明基于专家示例的微调可提升准确率。
本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。
研究者推出首个量化多模态模型生成式空间智能的基准 GSI-Bench,通过在图像生成过程中评估 3D 空间约束遵守情况来衡量能力。在合成数据集上微调可显著提升空间编辑保真度与下游空间理解,证明生成式训练能增强空间推理。