超越标量距离：来自冻结MLLM的语义属性梯度用于视觉嵌入

Hugging Face Daily Papers 2026/06/13 00:00 论文

摘要

SAGA框架利用冻结的多模态大语言模型，通过分组相对策略优化为视觉编码器提供属性感知监督，在细粒度基准上将零样本图像检索性能提升3-6个百分点。

用于检索的视觉编码器通常以类别标签监督进行训练：每个训练对简化为一个标量，统一地推开或拉近嵌入，仿佛每个视觉属性要么不同要么匹配。当同一个训练对被展示给一个多模态大语言模型（MLLM）时，MLLM能够阐述这些属性，并利用它们预测图像是否属于同一类别。我们提出SAGA框架，将这种基于语言、属性感知的感知能力转化为编码器本身的训练信号。具体来说，我们使用分组相对策略优化（GRPO）来奖励MLLM对视觉编码器令牌的正确预测。由于正确预测需要这些令牌暴露该训练对中不同或匹配的特定属性，梯度推动编码器编码这些属性，从而用属性解析的监督取代了统一的成对标量。一个辅助的注意力蒸馏损失将编码器的嵌入锚定到MLLM关注的令牌上，而一个标准的度量学习损失则塑造嵌入几何结构以用于最近邻检索。MLLM在整个过程中保持冻结状态，并在推理时被丢弃，部署成本与度量学习基线相同。在零样本图像检索任务上，SAGA在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves数据集上相比最先进的基线将Recall@1提升了3到6个百分点。

查看原文

查看缓存全文

缓存时间: 2026/06/17 19:52

论文页面 - 超越标量距离：来自冻结多模态大语言模型的语义属性梯度用于视觉嵌入

来源：https://huggingface.co/papers/2606.15134

摘要

SAGA框架利用多模态大语言模型，通过组相对策略优化为视觉编码器提供属性感知监督，从而提升零样本图像检索性能。

用于检索的视觉编码器通常采用类别标签监督进行训练：每个训练对简化为一个标量，统一将嵌入推开或拉近，仿佛所有视觉属性要么不同要么相同。一个多模态大语言模型在观察同一对图像时，能够清晰描述这些属性，并据此预测图像是否属于同一类别。我们提出了SAGA，一个将这种基于语言、属性感知的感知转化为编码器自身训练信号的框架。具体来说，我们使用组相对策略优化来奖励多模态大语言模型在视觉编码器token上的正确预测。由于正确预测要求这些token暴露图像对之间具体不同或匹配的属性，梯度推动编码器对这些属性进行编码，从而取代统一的成对标量，实现属性解析式的监督。一个辅助的注意力蒸馏损失将编码器的嵌入锚定到多模态大语言模型所关注的特征上，而一个标准的度量学习损失则塑造用于最近邻检索的嵌入几何结构。整个过程中多模态大语言模型保持冻结，并在推理阶段被丢弃，部署成本与度量学习基线相当。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves数据集上，SAGA在零样本图像检索任务中相比最先进的基线方法将Recall@1提升了3到6个百分点。

查看arXiv页面（https://arxiv.org/abs/2606.15134）查看PDF（https://arxiv.org/pdf/2606.15134）项目页面（https://shubhangb97.github.io/saga/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.15134）

在你的代理中获取这篇论文：

hf papers read 2606\.15134

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.15134以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.15134以从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.15134以从此页面链接。

包含此论文的收藏0

没有包含此论文的收藏

将这篇论文添加到一个收藏（https://huggingface.co/new-collection）中以从此页面链接。

超越标量距离：来自冻结MLLM的语义属性梯度用于视觉嵌入

论文页面 - 超越标量距离：来自冻结多模态大语言模型的语义属性梯度用于视觉嵌入

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

Stateful Visual Encoders for Vision-Language Models

面向主体驱动生成的多模态大语言模型能力挖掘

超越3D VQA：将3D空间先验注入视觉语言模型以增强几何推理

LLaVA-UHD v4：高效视觉编码在 MLLMs 中的关键要素是什么？

Late-Layer Fusion 足矣：视觉饱和下多模态大语言模型的双路径视觉令牌路由

提交意见反馈