标签
本文介绍了GGT-100K,一个包含103,707对图像的真实图像修复数据集,通过使用如Nano-Banana-2等多模态基础模型,从低质量输入生成高质量目标。实验表明,该数据集提升了多种图像修复模型的泛化能力。
WildTableBench 提出了首个针对真实世界表格图像的问答应答基准,揭示了现有多模态基础模型在结构感知和数值推理方面存在显著困难,仅有1个模型准确率超过50%。