TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

Hugging Face Daily Papers 2026/04/13 00:00 论文

摘要

# 论文页面 - TIPSv2：以更强的块-文本对齐推进视觉-语言预训练来源：[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间：4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [![](https://huggingface.co/avatars/05be62f5927b8586ef7cb927d47dcd83.svg)](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日作者：，，，，，，，，，，，，，，，，，## 摘要

视觉-语言预训练的最新进展显著提升了分类、检索、分割和深度估计等下游计算机视觉应用的表现。然而，这些模型仍面临一个基本挑战：将密集的块级表示与对应概念的文本嵌入精准对齐。本文深入研究这一关键问题，并提出新技术以增强基础视觉-语言模型的这一能力。首先，我们发现块级蒸馏过程能显著提升块-文本对齐——令人惊讶的是，蒸馏后的学生模型在块-文本对齐上大幅超越教师模型。这一发现启发我们重新审视预训练配方，提出 iBOT++，对常用的 iBOT 掩码图像目标进行升级，让未掩码的 token 也直接参与损失计算，从而显著增强预训练模型的块-文本对齐效果。此外，为提高视觉-语言预训练的效率与效果，我们改进了学习配方中的指数移动平均设置，并引入字幕采样策略，利用不同粒度的合成字幕。综合以上组件，我们构建了 TIPSv2，一系列适用于多种下游应用的图像-文本编码器模型。在 9 项任务、20 个数据集上的全面实验表明，其性能总体与最新视觉编码器模型相当或更优。代码与模型已发布于项目主页：https://gdm-tipsv2.github.io/

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:21

论文页面 - TIPSv2：通过增强 Patch-Text 对齐推进视觉-语言预训练

来源：https://huggingface.co/papers/2604.12012
发布时间：4 月 13 日

由 https://huggingface.co/bingyic 提交

bingyi (https://huggingface.co/bingyic) 于 4 月 20 日

作者：

、

摘要

增强的视觉-语言模型通过改进的预训练技术——包括 patch 级蒸馏、改进的掩码图像目标以及优化的字幕采样策略——实现了更优的密集 patch-文本对齐。

近期视觉-语言预训练（https://huggingface.co/papers?q=vision-language%20pretraining）的进展，已在分类、检索、分割和深度估计等下游计算机视觉任务中带来显著提升。然而，这些模型仍面临一项基本挑战：将密集 patch 表示（https://huggingface.co/papers?q=dense%20patch%20representations）与对应概念的文本嵌入（https://huggingface.co/papers?q=text%20embeddings）精准对齐。本文聚焦这一关键问题，提出新技术以增强基础视觉-语言模型的该能力。首先，我们发现patch 级蒸馏（https://huggingface.co/papers?q=patch-level%20distillation）能显著提升密集 patch-文本对齐——令人惊讶的是，蒸馏后的学生模型在该指标上远超教师模型。这一发现启发我们改进预训练配方，提出 iBOT++（https://huggingface.co/papers?q=iBOT%2B%2B），对常用的 iBOT 掩码图像目标（https://huggingface.co/papers?q=masked%20image%20objective）进行升级，让未被掩码的 token 也直接参与损失计算，从而大幅增强预训练模型的 patch-文本对齐能力。此外，为提高视觉-语言预训练（https://huggingface.co/papers?q=vision-language%20pretraining）的效率与效果，我们调整了学习配方中的指数移动平均（https://huggingface.co/papers?q=exponential%20moving%20average）设置，并引入字幕采样（https://huggingface.co/papers?q=caption%20sampling）策略，以利用不同粒度的合成字幕。综合以上组件，我们推出 TIPSv2，新一代图像-文本编码器模型（https://huggingface.co/papers?q=image-text%20encoder%20models），适用于广泛的下游应用（https://huggingface.co/papers?q=downstream%20applications）。在 9 项任务、20 个数据集上的全面实验表明，其性能总体媲美或优于近期视觉编码器模型。代码与模型已发布于项目主页：https://gdm-tipsv2.github.io/。

查看 arXiv 页面（https://arxiv.org/abs/2604.12012）
查看 PDF（https://arxiv.org/pdf/2604.12012）
项目主页（https://gdm-tipsv2.github.io/）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.12012）

在智能体中获取该论文：

hf papers read 2604.12012

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.12012，即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.12012，即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.12012，即可在此页面显示链接。

TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

论文页面 - TIPSv2：通过增强 Patch-Text 对齐推进视觉-语言预训练

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的合集 1

相似文章

AutoRubric-T2I: 基于规则的文本到图像对齐鲁棒奖励模型

文本-视觉协同指导的图像编辑

APT：动作专家预训练提升视觉-语言-动作策略的指令泛化能力

IV-CoT: 隐式视觉思维链用于结构感知的文本到图像生成

ViT-Up: 视觉Transformer的忠实特征上采样

提交意见反馈