超越标量距离:来自冻结MLLM的语义属性梯度用于视觉嵌入

Hugging Face Daily Papers 论文

摘要

SAGA框架利用冻结的多模态大语言模型,通过分组相对策略优化为视觉编码器提供属性感知监督,在细粒度基准上将零样本图像检索性能提升3-6个百分点。

用于检索的视觉编码器通常以类别标签监督进行训练:每个训练对简化为一个标量,统一地推开或拉近嵌入,仿佛每个视觉属性要么不同要么匹配。当同一个训练对被展示给一个多模态大语言模型(MLLM)时,MLLM能够阐述这些属性,并利用它们预测图像是否属于同一类别。我们提出SAGA框架,将这种基于语言、属性感知的感知能力转化为编码器本身的训练信号。具体来说,我们使用分组相对策略优化(GRPO)来奖励MLLM对视觉编码器令牌的正确预测。由于正确预测需要这些令牌暴露该训练对中不同或匹配的特定属性,梯度推动编码器编码这些属性,从而用属性解析的监督取代了统一的成对标量。一个辅助的注意力蒸馏损失将编码器的嵌入锚定到MLLM关注的令牌上,而一个标准的度量学习损失则塑造嵌入几何结构以用于最近邻检索。MLLM在整个过程中保持冻结状态,并在推理时被丢弃,部署成本与度量学习基线相同。在零样本图像检索任务上,SAGA在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves数据集上相比最先进的基线将Recall@1提升了3到6个百分点。
查看原文
查看缓存全文

缓存时间: 2026/06/17 19:52

论文页面 - 超越标量距离:来自冻结多模态大语言模型的语义属性梯度用于视觉嵌入

来源:https://huggingface.co/papers/2606.15134

摘要

SAGA框架利用多模态大语言模型,通过组相对策略优化为视觉编码器提供属性感知监督,从而提升零样本图像检索性能。

用于检索的视觉编码器通常采用类别标签监督进行训练:每个训练对简化为一个标量,统一将嵌入推开或拉近,仿佛所有视觉属性要么不同要么相同。一个多模态大语言模型在观察同一对图像时,能够清晰描述这些属性,并据此预测图像是否属于同一类别。我们提出了SAGA,一个将这种基于语言、属性感知的感知转化为编码器自身训练信号的框架。具体来说,我们使用组相对策略优化来奖励多模态大语言模型在视觉编码器token上的正确预测。由于正确预测要求这些token暴露图像对之间具体不同或匹配的属性,梯度推动编码器对这些属性进行编码,从而取代统一的成对标量,实现属性解析式的监督。一个辅助的注意力蒸馏损失将编码器的嵌入锚定到多模态大语言模型所关注的特征上,而一个标准的度量学习损失则塑造用于最近邻检索的嵌入几何结构。整个过程中多模态大语言模型保持冻结,并在推理阶段被丢弃,部署成本与度量学习基线相当。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves数据集上,SAGA在零样本图像检索任务中相比最先进的基线方法将Recall@1提升了3到6个百分点。

查看arXiv页面(https://arxiv.org/abs/2606.15134)查看PDF(https://arxiv.org/pdf/2606.15134)项目页面(https://shubhangb97.github.io/saga/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.15134)

在你的代理中获取这篇论文:

hf papers read 2606\.15134

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.15134以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.15134以从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.15134以从此页面链接。

包含此论文的收藏0

没有包含此论文的收藏

将这篇论文添加到一个收藏(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

Stateful Visual Encoders for Vision-Language Models

Hugging Face Daily Papers

本文介绍了一种用于视觉-语言模型的有状态视觉编码器,该编码器基于先前的特征来调节视觉表示,从而在多图像和智能体设置中实现更好的视觉比较。该方法在跨图像空间聚合、纵向放射学等任务上展现出一致的改进。

面向主体驱动生成的多模态大语言模型能力挖掘

Hugging Face Daily Papers

本文提出了一种新颖的方法,将扩散模型以多模态大语言模型(MLLMs)为条件,用于主体驱动图像生成,使用基于VAE的身份条件化和双层聚合模块,提高语义理解和身份保持,同时减轻复制粘贴伪影。

LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?

Hugging Face Daily Papers

本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。