FAST-GOAL: 快速高效的全局-局部对象对齐学习

arXiv cs.AI 2026/05/27 04:00 论文

vision-language clip fine-tuning object-alignment global-local retrieval semantic-alignment

摘要

FAST-GOAL 是一种微调方法，增强了CLIP在图像和长文本中对其全局和局部语义的能力，引入了FLISM和TSL模块以及GLIT100k数据集，在长标题数据集上取得了改进。

arXiv:2605.26615v1 公告类型: 新摘要: 像CLIP这样的视觉语言模型在图像和文本对齐方面表现出色，但由于预训练数据为简短标题，它们在处理冗长详细文本描述时常常遇到困难。我们提出FAST-GOAL（快速高效的全局-局部对象对齐学习），这是一种高效的微调方法，通过全局-局部语义对齐增强了CLIP处理长文本的能力。我们的方法包含两个关键组件。首先，快速局部图像-句子匹配（FLISM）通过目标检测和空间划分高效提取局部图像区域，然后将其与对应句子进行匹配。其次，基于令牌相似度的学习（TSL）最大化图像中特定区域的补丁令牌与其对应区域嵌入之间的相似度，并将相同原理应用于文本，从而增强了模型捕捉细节对应关系的能力。此外，我们引入了GLIT100k数据集，该数据集提供全局图像-长标题对以及从上下文派生的局部对，其中局部描述从全局标题中提取以保持语义连贯性。通过在长标题数据集（DOCCI、DCI）和短标题数据集（MSCOCO、Flickr30k）上的大量实验，我们证明FAST-GOAL相比于基线取得了显著改进，使CLIP能够有效适应详细的文本描述，同时保持计算效率。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:06

# FAST-GOAL：快速高效的全局-局部目标对齐学习

来源：https://arxiv.org/html/2605.26615

Hyungyu Choi\*, Young Kyun Jang\*, Chanho Eom†

\* 同等贡献。† 通讯作者。

Hyungyu Choi 和 Chanho Eom 就职于韩国首尔中央大学尖端影像科学、多媒体与电影研究生院（GSAIM）虚拟融合系（电子邮箱：[email protected]; [email protected]）。Young Kyun Jang（电子邮箱：[email protected]）。本文附有可下载的补充材料，网址为 http://ieeexplore.ieee.org，由作者提供。材料包含与本研究相关的附加实验。如有疑问，请联系 [email protected]。GitHub：https://github.com/PerceptualAI-Lab/FAST-GOAL

###### 摘要

视觉语言模型（如 CLIP）在图像与文本对齐方面表现出色，但由于其预训练基于简短精炼的标题，因此在处理冗长详细的文本描述时常常面临困难。我们提出 FAST-GOAL（快速高效的全局-局部目标对齐学习），一种高效的微调方法，通过全局-局部语义对齐增强 CLIP 处理长文本的能力。我们的方法包含两个关键组件。首先，快速局部图像-句子匹配（FLISM）通过目标检测和空间分割高效提取图像局部区域，然后将其与相应的句子匹配。其次，基于 Token 相似性的学习（TSL）最大化图像特定区域的 patch token 与其对应的区域嵌入之间的相似性，并将相同原理应用于文本，从而增强模型捕捉细节对应关系的能力。此外，我们引入了 GLIT100k 数据集，该数据集提供全局图像-长描述配对和上下文派生的局部配对，其中局部描述从全局描述中提取以保持语义一致性。通过在长描述数据集（DOCCI、DCI）和短描述数据集（MSCOCO、Flickr30k）上的广泛实验，我们证明 FAST-GOAL 相比基线取得了显著改进，使得 CLIP 能够有效适应详细的文本描述，同时保持计算效率。

## I 引言

自 CLIP [27](https://arxiv.org/html/2605.26615#bib.bib3) 出现以来，许多方法 [20](https://arxiv.org/html/2605.26615#bib.bib47)、[39](https://arxiv.org/html/2605.26615#bib.bib48)、[19](https://arxiv.org/html/2605.26615#bib.bib49)、[38](https://arxiv.org/html/2605.26615#bib.bib50) 被提出来寻找图像与文本之间的联系，展示了显著的进展。通过对数亿个图像-标题对进行对比学习，CLIP 成功地将图像和文本编码到一个统一的嵌入空间中。图像和文本嵌入的分布同时捕捉了视觉和文本语义，使得零样本迁移到各种下游任务成为可能，例如检索 [10](https://arxiv.org/html/2605.26615#bib.bib55)、[15](https://arxiv.org/html/2605.26615#bib.bib56)、[16](https://arxiv.org/html/2605.26615#bib.bib69)、[42](https://arxiv.org/html/2605.26615#bib.bib70) 和分类 [18](https://arxiv.org/html/2605.26615#bib.bib51)、[28](https://arxiv.org/html/2605.26615#bib.bib52)、[30](https://arxiv.org/html/2605.26615#bib.bib54)、[11](https://arxiv.org/html/2605.26615#bib.bib53)，并取得了不错的性能。

参见说明 (a) CLIP
参见说明 (b) FAST-GOAL

图 1：CLIP 与我们的 FAST-GOAL 在处理图像-文本对齐方面的能力比较。(a) CLIP 仅限于全局图像-文本匹配，将整个图像和完整标题视为单一单元，没有详细关联。(b) FAST-GOAL 能够在图像的特定区域与其标题中的相应文本描述之间建立精确的局部对齐（蓝色高亮部分）。

然而，对预训练 CLIP（图 1 (a)）模型进行微调以适应特定领域存在局限性，因为 CLIP 是在通用、简短的标题（例如，原始模型最多 77 个 token）上训练的，这些标题侧重于高层图像概念。当面对较长、更详细的文本时，CLIP 难以捕捉细微信息，因为统一的嵌入空间是针对简洁描述优化的。这使得在不进行架构调整或采用专门训练技术的情况下，将 CLIP 适应于需要长文本的检索任务变得具有挑战性。

本文中，我们提出一种新颖但简单的图像与长文本配对微调方法，称为 FAST-GOAL（快速高效的全局-局部目标对齐学习）（图 1 (b)）。这里，我们称“全局”为整个图像或文本，“局部”为子部分，例如图像的一个片段或文本中的一个特定句子。FAST-GOAL 背后的理念是让编码器模型专注于每个图像和文本样本中的主导局部元素，从而增强对样本的整体理解，并产生更具代表性的嵌入。

FAST-GOAL 包含两个关键组件：首先，快速局部图像-句子匹配（FLISM），一个从图像中提取局部片段并将它们与整个标题中相应的描述性句子匹配的管道。其次，我们引入了基于 Token 相似性的学习（TSL），一种利用通过 FLISM 管道获得的局部对有效传播局部元素注意力的方法。此外，我们提出了全局-局部图像-文本对 100k（GLIT100k），一个包含 100k 图像-长描述配对的数据集，它还提供了将图像片段与相应句子匹配的细粒度局部对，从而为长文本理解提供多级监督。

为了在不同领域验证 FAST-GOAL，我们在长描述数据集（DOCCI [26](https://arxiv.org/html/2605.26615#bib.bib8) 和 DCI [33](https://arxiv.org/html/2605.26615#bib.bib9)）以及短描述数据集（COCO [22](https://arxiv.org/html/2605.26615#bib.bib4) 和 Flickr30k [36](https://arxiv.org/html/2605.26615#bib.bib6））上评估了我们的方法。这项广泛的评估表明，FAST-GOAL 有效解决了图像-长文本检索的挑战，同时保持了在短描述任务上的稳健性能。我们的方法在多种评估场景下相比基线模型显示出显著的改进。

我们的主要贡献可以总结如下：

- • 我们提出 FAST-GOAL，一种快速高效的微调方法，利用 FLISM 和 TSL 方法，通过大规模全局-局部对齐实现 CLIP 对长文本理解的有效适应。
- • 我们引入 GLIT100k 数据集，它同时提供图像-长描述配对和将图像片段与相应文本描述匹配的局部对，为有效的长文本理解提供必要的多级监督。
- • 通过在长描述领域（包括 DOCCI 和 DCI）以及短描述领域（如 MSCOCO 和 Flickr30k）的各种实验，我们表明 FAST-GOAL 显著优于基线 CLIP 模型，同时在不同描述长度下保持强劲性能。

本文基于我们先前的工作 GOAL [6](https://arxiv.org/html/2605.26615#bib.bib40)。本次期刊扩展增加了：1) FLISM，一种高效的管道，结合目标检测与空间分割进行局部对匹配，在保持区域与句子间准确图像-文本对应关系的同时降低计算成本；2) GLIT100k，一个 10 万规模的数据集，提供上下文派生的局部对，其中局部描述从全局描述中提取而非独立生成，确保全局-局部层级间的语义连贯性；3) 在长描述数据集（DOCCI、DCI）和短描述数据集（MSCOCO、Flickr30k）上的实验验证，展示了在不同描述长度下的持续改进；4) 计算效率分析，表明我们的 10 万规模方法在需要少于百万规模替代方案资源的情况下取得了有竞争力的性能；5) 通过检索可视化进行的定性分析，展示了 FAST-GOAL 相比基线模型在捕捉细粒度视觉-文本对应关系方面的卓越能力。

## II 相关工作

### II-A 视觉-语言预训练

关于解决视觉和语言模态间对齐差异的研究使 CLIP [27](https://arxiv.org/html/2605.26615#bib.bib3) 模型成为焦点。CLIP 是一种多模态嵌入模型，通过对超过 4 亿个图像-文本对进行对比学习训练，有效对齐了视觉和文本表示，同时展示了卓越的零样本能力。在其成功之后，出现了更大的预训练模型，如 ALIGN [13](https://arxiv.org/html/2605.26615#bib.bib1) 和 Florence [37](https://arxiv.org/html/2605.26615#bib.bib2)，分别基于包含 18 亿和 9 亿样本的数据集进行训练。然而，这些模型通常依赖简短、宽泛的图像描述作为标题，导致它们遗漏关键的局部级详细信息。这限制了它们主要聚焦于全局理解的能力，而无法捕捉局部细节。为了克服这一限制，我们提出一种微调方法，通过在包含详细、多句子标题的数据集上进行训练，增强 CLIP 捕捉局部细节和全局语义信息的能力。

### II-B CLIP 用于长文本理解

增强 CLIP [27](https://arxiv.org/html/2605.26615#bib.bib3) 用于长文本理解的主要挑战在于找到数据集规模与性能之间的有效平衡。当前方法主要分为两种范式，每种都存在基本的权衡。大规模预训练方法（如 FG-CLIP [35](https://arxiv.org/html/2605.26615#bib.bib41)）首先利用数十亿规模的数据集从头开发稳健的多模态表示，然后需要额外的难负样本来增强细粒度理解。这种两阶段过程导致对计算资源和训练基础设施的需求极高，严重限制了实际采用。作为替代，微调方法因其可访问性而受到关注。Long-CLIP [40](https://arxiv.org/html/2605.26615#bib.bib10) 开创性地使用多模态大语言模型（MLLMs）生成的长描述来微调 CLIP，结合了粗粒度和细粒度对齐策略，并依赖百万规模数据集 [4](https://arxiv.org/html/2605.26615#bib.bib36)。FineLIP [1](https://arxiv.org/html/2605.26615#bib.bib64) 遵循类似路径，依赖百万规模数据，并采用额外的 token 聚合模块来减少跨模态对齐前的模糊性。尽管有所改进，但这两种方法对百万规模数据集的依赖引发了基本问题：如此大规模的数据需求对于有效的微调是否真的必要？针对这一问题，GOAL [6](https://arxiv.org/html/2605.26615#bib.bib40) 证明仅使用小规模数据集 [26](https://arxiv.org/html/2605.26615#bib.bib8)、[33](https://arxiv.org/html/2605.26615#bib.bib9) 即可实现显著性能，证明无需大量资源也能实现数据效率。然而，GOAL 中昂贵的数据集策划过程造成了新的瓶颈。这阻碍了探索效率与可扩展性可能共存的理想平衡点。为了应对这一挑战，我们提出 FAST-GOAL，利用我们 10 万规模的数据集 GLIT100k。这一规模足够大以确保稳健性能，同时又足够小以保持计算效率。通过高效的数据集构建和训练过程，我们的方法在不依赖百万规模数据或额外架构参数的情况下实现优越性能，为 CLIP 中实用的长文本理解建立了新范式。

### II-C 在视觉-语言模型训练中利用局部元素

在视觉-语言对齐模型方面，利用局部元素知识来提升模型整体能力已在多个领域得到广泛探索。ViTAA [34](https://arxiv.org/html/2605.26615#bib.bib12) 学习对齐对应于全局级别的全身图像与描述整个人物的文本，以执行行人重识别任务 [31](https://arxiv.org/html/2605.26615#bib.bib26)、[7](https://arxiv.org/html/2605.26615#bib.bib27)、[43](https://arxiv.org/html/2605.26615#bib.bib28)、[44](https://arxiv.org/html/2605.26615#bib.bib29)，同时学习对齐图像和文本中的属性（如头发、裤子、鞋子）——这些对应于局部级别。这种方法结合了全局-局部关系，实现了更丰富的视觉-语言表示学习。CLOC [3](https://arxiv.org/html/2605.26615#bib.bib13) 构建了 20 亿个图像-文本数据集，并通过开放词汇检测器（如 OWLv2 [25](https://arxiv.org/html/2605.26615#bib.bib14)、GLIPv2 [41](https://arxiv.org/html/2605.26615#bib.bib15)）匹配局部目标和短语级别，用于预训练模型。该方法旨在提升定位能力，同时保持 CLIP 的全局级表示，展示了优于原始预训练 CLIP 模型的性能。相比之下，我们提出的 FAST-GOAL 方法通过区域-句子对齐解决图像-长文本匹配问题，这与现有微调方法 [14](https://arxiv.org/html/2605.26615#bib.bib46)、[21](https://arxiv.org/html/2605.26615#bib.bib65) 聚焦于短描述的区域-短语匹配有本质区别。这些方法将图像区域与名词短语或简短描述对齐，而长描述包含多个完整句子描述场景的各个方面。这需要句子级的局部对来保持全局与局部描述之间的上下文连贯性。

## III 方法

在本节中，我们首先介绍快速局部图像-句子匹配（FLISM），一个从图像-长描述配对中生成局部级伪配对的高效管道（第 III-A 节）。然后我们描述基于 Token 相似性的学习（TSL），它利用这些伪配对来增强 CLIP 的细粒度理解能力（第 III-B 节）。

### III-A 快速局部图像-句子匹配

参见说明

图 2：快速局部图像-句子匹配（FLISM）管道概述。给定全局图像及其详细描述，FLISM 使用 YOLOS [9](https://arxiv.org/html/2605.26615#bib.bib43) 检测图像中的目标以创建局部区域，并将描述拆分为独立句子。这些局部对随后通过 CLIP 编码器处理以获得 CLS 嵌入，用于最大相似性匹配以识别最相关的图像-句子对。

我们提出如图 2 所示的快速局部图像-句子匹配（FLISM）。FLISM 高效地将给定的描述拆分为独立句子，并识别相应的图像片段，将每个句子与其相关片段匹配。为此，我们首先将给定的描述 Tg（提供图像 Ig 的详细描述）分解为独立句子，得到文本片段。

FAST-GOAL: 快速高效的全局-局部对象对齐学习

相似文章

OSMGraphCLIP：从OpenStreetMap图学习全局位置表示

看我之意：面向视频细粒度对象理解的视觉与语言表征对齐

GAVEL：有依据的描述错误验证与定位

目标条件监督学习用于LLM微调

KODA：面向视觉-语言基础模型的对比表示比较与对齐

提交意见反馈