标签
本文介绍了RE-Edit,一个用于评估图像编辑系统的基准,涵盖五个推理维度(物理、环境、文化、因果、指代),旨在评估逻辑一致性而不仅仅是视觉合理性。该基准包含1000个样本,评估了十个开源模型和两个商业模型,结果表明即使是先进系统在隐式多维度推理方面也存在困难。