超越标量距离:来自冻结MLLM的语义属性梯度用于视觉嵌入
摘要
SAGA框架利用冻结的多模态大语言模型,通过分组相对策略优化为视觉编码器提供属性感知监督,在细粒度基准上将零样本图像检索性能提升3-6个百分点。
查看缓存全文
缓存时间: 2026/06/17 19:52
论文页面 - 超越标量距离:来自冻结多模态大语言模型的语义属性梯度用于视觉嵌入
来源:https://huggingface.co/papers/2606.15134
摘要
SAGA框架利用多模态大语言模型,通过组相对策略优化为视觉编码器提供属性感知监督,从而提升零样本图像检索性能。
用于检索的视觉编码器通常采用类别标签监督进行训练:每个训练对简化为一个标量,统一将嵌入推开或拉近,仿佛所有视觉属性要么不同要么相同。一个多模态大语言模型在观察同一对图像时,能够清晰描述这些属性,并据此预测图像是否属于同一类别。我们提出了SAGA,一个将这种基于语言、属性感知的感知转化为编码器自身训练信号的框架。具体来说,我们使用组相对策略优化来奖励多模态大语言模型在视觉编码器token上的正确预测。由于正确预测要求这些token暴露图像对之间具体不同或匹配的属性,梯度推动编码器对这些属性进行编码,从而取代统一的成对标量,实现属性解析式的监督。一个辅助的注意力蒸馏损失将编码器的嵌入锚定到多模态大语言模型所关注的特征上,而一个标准的度量学习损失则塑造用于最近邻检索的嵌入几何结构。整个过程中多模态大语言模型保持冻结,并在推理阶段被丢弃,部署成本与度量学习基线相当。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves数据集上,SAGA在零样本图像检索任务中相比最先进的基线方法将Recall@1提升了3到6个百分点。
查看arXiv页面(https://arxiv.org/abs/2606.15134)查看PDF(https://arxiv.org/pdf/2606.15134)项目页面(https://shubhangb97.github.io/saga/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.15134)
在你的代理中获取这篇论文:
hf papers read 2606\.15134
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.15134以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.15134以从此页面链接。
引用此论文的Space0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.15134以从此页面链接。
包含此论文的收藏0
没有包含此论文的收藏
将这篇论文添加到一个收藏(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
Stateful Visual Encoders for Vision-Language Models
本文介绍了一种用于视觉-语言模型的有状态视觉编码器,该编码器基于先前的特征来调节视觉表示,从而在多图像和智能体设置中实现更好的视觉比较。该方法在跨图像空间聚合、纵向放射学等任务上展现出一致的改进。
面向主体驱动生成的多模态大语言模型能力挖掘
本文提出了一种新颖的方法,将扩散模型以多模态大语言模型(MLLMs)为条件,用于主体驱动图像生成,使用基于VAE的身份条件化和双层聚合模块,提高语义理解和身份保持,同时减轻复制粘贴伪影。
超越3D VQA:将3D空间先验注入视觉语言模型以增强几何推理
本文提出GASP框架,通过深度监督结合对比损失和深度一致性损失将几何先验注入视觉语言模型,在3D空间推理基准上取得了显著提升,且无需使用3D VQA数据。
LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?
本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。
Late-Layer Fusion 足矣:视觉饱和下多模态大语言模型的双路径视觉令牌路由
本文提出 DPVR-LF,一种面向多模态大语言模型(MLLM)的模态不对称路由框架,该框架在视觉令牌饱和点将其路由到轻量级侧分支,并执行晚期融合,从而在减少视觉计算量的同时保持具有竞争力的性能。