TIPSv2:以更强的块-文本对齐推进视觉-语言预训练

Hugging Face Daily Papers 论文

摘要

# 论文页面 - TIPSv2:以更强的块-文本对齐推进视觉-语言预训练 来源:[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间:4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [![](https://huggingface.co/avatars/05be62f5927b8586ef7cb927d47dcd83.svg)](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日 作者:,,,,,,,,,,,,,,,,,## 摘要

视觉-语言预训练的最新进展显著提升了分类、检索、分割和深度估计等下游计算机视觉应用的表现。然而,这些模型仍面临一个基本挑战:将密集的块级表示与对应概念的文本嵌入精准对齐。本文深入研究这一关键问题,并提出新技术以增强基础视觉-语言模型的这一能力。首先,我们发现块级蒸馏过程能显著提升块-文本对齐——令人惊讶的是,蒸馏后的学生模型在块-文本对齐上大幅超越教师模型。这一发现启发我们重新审视预训练配方,提出 iBOT++,对常用的 iBOT 掩码图像目标进行升级,让未掩码的 token 也直接参与损失计算,从而显著增强预训练模型的块-文本对齐效果。此外,为提高视觉-语言预训练的效率与效果,我们改进了学习配方中的指数移动平均设置,并引入字幕采样策略,利用不同粒度的合成字幕。综合以上组件,我们构建了 TIPSv2,一系列适用于多种下游应用的图像-文本编码器模型。在 9 项任务、20 个数据集上的全面实验表明,其性能总体与最新视觉编码器模型相当或更优。代码与模型已发布于项目主页:https://gdm-tipsv2.github.io/
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:21

论文页面 - TIPSv2:通过增强 Patch-Text 对齐推进视觉-语言预训练

来源:https://huggingface.co/papers/2604.12012
发布时间:4 月 13 日

·

由 https://huggingface.co/bingyic 提交

bingyi (https://huggingface.co/bingyic) 于 4 月 20 日

作者:

摘要

增强的视觉-语言模型通过改进的预训练技术——包括 patch 级蒸馏、改进的掩码图像目标以及优化的字幕采样策略——实现了更优的密集 patch-文本对齐。

近期视觉-语言预训练(https://huggingface.co/papers?q=vision-language%20pretraining)的进展,已在分类、检索、分割和深度估计等下游计算机视觉任务中带来显著提升。然而,这些模型仍面临一项基本挑战:将密集 patch 表示(https://huggingface.co/papers?q=dense%20patch%20representations)与对应概念的文本嵌入(https://huggingface.co/papers?q=text%20embeddings)精准对齐。本文聚焦这一关键问题,提出新技术以增强基础视觉-语言模型的该能力。首先,我们发现patch 级蒸馏(https://huggingface.co/papers?q=patch-level%20distillation)能显著提升密集 patch-文本对齐——令人惊讶的是,蒸馏后的学生模型在该指标上远超教师模型。这一发现启发我们改进预训练配方,提出 iBOT++(https://huggingface.co/papers?q=iBOT%2B%2B),对常用的 iBOT 掩码图像目标(https://huggingface.co/papers?q=masked%20image%20objective)进行升级,让未被掩码的 token 也直接参与损失计算,从而大幅增强预训练模型的 patch-文本对齐能力。此外,为提高视觉-语言预训练(https://huggingface.co/papers?q=vision-language%20pretraining)的效率与效果,我们调整了学习配方中的指数移动平均(https://huggingface.co/papers?q=exponential%20moving%20average)设置,并引入字幕采样(https://huggingface.co/papers?q=caption%20sampling)策略,以利用不同粒度的合成字幕。综合以上组件,我们推出 TIPSv2,新一代图像-文本编码器模型(https://huggingface.co/papers?q=image-text%20encoder%20models),适用于广泛的下游应用(https://huggingface.co/papers?q=downstream%20applications)。在 9 项任务、20 个数据集上的全面实验表明,其性能总体媲美或优于近期视觉编码器模型。代码与模型已发布于项目主页:https://gdm-tipsv2.github.io/。

查看 arXiv 页面(https://arxiv.org/abs/2604.12012)
查看 PDF(https://arxiv.org/pdf/2604.12012)
项目主页(https://gdm-tipsv2.github.io/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.12012)

在智能体中获取该论文:

hf papers read 2604.12012

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.12012,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.12012,即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.12012,即可在此页面显示链接。

包含该论文的合集 1

相似文章

文本-视觉协同指导的图像编辑

Hugging Face Daily Papers

一种名为TV-Edit的新框架,结合文本指令和视觉提示实现精确图像编辑,并附带基准TV-Edit-Bench用于评估。该方法在空间控制和语义忠实度上优于现有方法。

ViT-Up: 视觉Transformer的忠实特征上采样

Hugging Face Daily Papers

ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]