标签
SAGA框架利用冻结的多模态大语言模型,通过分组相对策略优化为视觉编码器提供属性感知监督,在细粒度基准上将零样本图像检索性能提升3-6个百分点。
Tuna-2 是一个统一的多模态模型,通过直接从像素嵌入处理视觉理解与生成任务,无需预训练视觉编码器,达到了最先进的性能水平。