标签
ReMMD 提出了一种面向多模态虚假信息检测的真实多语言多图像智能验证框架,包含一个包含 500 个样本和 2,756 张图像的基准数据集 ReMMDBench,以及一个以更低成本实现更优真实性检测性能的智能体 ReMMD-Agent。
IndustryBench-MIPU 是一个大规模的多图像工业产品理解基准,评估了9个MLLM,揭示了一个完整性差距:精度高但属性恢复率低。
本文介绍了一种用于视觉-语言模型的有状态视觉编码器,该编码器基于先前的特征来调节视觉表示,从而在多图像和智能体设置中实现更好的视觉比较。该方法在跨图像空间聚合、纵向放射学等任务上展现出一致的改进。