TIPSv2:以更强的块-文本对齐推进视觉-语言预训练
摘要
# 论文页面 - TIPSv2:以更强的块-文本对齐推进视觉-语言预训练 来源:[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间:4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日 作者:,,,,,,,,,,,,,,,,,## 摘要
查看缓存全文
缓存时间: 2026/04/21 07:21
论文页面 - TIPSv2:通过增强 Patch-Text 对齐推进视觉-语言预训练
来源:https://huggingface.co/papers/2604.12012
发布时间:4 月 13 日
·
由 https://huggingface.co/bingyic 提交
bingyi (https://huggingface.co/bingyic) 于 4 月 20 日
作者:
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
、
摘要
增强的视觉-语言模型通过改进的预训练技术——包括 patch 级蒸馏、改进的掩码图像目标以及优化的字幕采样策略——实现了更优的密集 patch-文本对齐。
近期视觉-语言预训练(https://huggingface.co/papers?q=vision-language%20pretraining)的进展,已在分类、检索、分割和深度估计等下游计算机视觉任务中带来显著提升。然而,这些模型仍面临一项基本挑战:将密集 patch 表示(https://huggingface.co/papers?q=dense%20patch%20representations)与对应概念的文本嵌入(https://huggingface.co/papers?q=text%20embeddings)精准对齐。本文聚焦这一关键问题,提出新技术以增强基础视觉-语言模型的该能力。首先,我们发现patch 级蒸馏(https://huggingface.co/papers?q=patch-level%20distillation)能显著提升密集 patch-文本对齐——令人惊讶的是,蒸馏后的学生模型在该指标上远超教师模型。这一发现启发我们改进预训练配方,提出 iBOT++(https://huggingface.co/papers?q=iBOT%2B%2B),对常用的 iBOT 掩码图像目标(https://huggingface.co/papers?q=masked%20image%20objective)进行升级,让未被掩码的 token 也直接参与损失计算,从而大幅增强预训练模型的 patch-文本对齐能力。此外,为提高视觉-语言预训练(https://huggingface.co/papers?q=vision-language%20pretraining)的效率与效果,我们调整了学习配方中的指数移动平均(https://huggingface.co/papers?q=exponential%20moving%20average)设置,并引入字幕采样(https://huggingface.co/papers?q=caption%20sampling)策略,以利用不同粒度的合成字幕。综合以上组件,我们推出 TIPSv2,新一代图像-文本编码器模型(https://huggingface.co/papers?q=image-text%20encoder%20models),适用于广泛的下游应用(https://huggingface.co/papers?q=downstream%20applications)。在 9 项任务、20 个数据集上的全面实验表明,其性能总体媲美或优于近期视觉编码器模型。代码与模型已发布于项目主页:https://gdm-tipsv2.github.io/。
查看 arXiv 页面(https://arxiv.org/abs/2604.12012)
查看 PDF(https://arxiv.org/pdf/2604.12012)
项目主页(https://gdm-tipsv2.github.io/)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.12012)
在智能体中获取该论文:
hf papers read 2604.12012
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.12012,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.12012,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.12012,即可在此页面显示链接。
包含该论文的合集 1
相似文章
AutoRubric-T2I: 基于规则的文本到图像对齐鲁棒奖励模型
AutoRubric-T2I 自动生成并选择显式评分标准,以指导视觉语言模型裁判对文本到图像生成进行评判,用极少的人工标注实现高质量奖励信号,并提升下游任务的生成质量。
文本-视觉协同指导的图像编辑
一种名为TV-Edit的新框架,结合文本指令和视觉提示实现精确图像编辑,并附带基准TV-Edit-Bench用于评估。该方法在空间控制和语义忠实度上优于现有方法。
APT:动作专家预训练提升视觉-语言-动作策略的指令泛化能力
研究人员提出APT,一种两阶段训练方法,先在视觉-动作对上预训练动作专家,再整合语言条件,显著提升视觉-语言-动作策略在分布外指令上的泛化能力。
IV-CoT: 隐式视觉思维链用于结构感知的文本到图像生成
IV-CoT 将视觉条件分解为结构和语义级联,以改进结构感知的图像生成,使用仅训练阶段的草图监督来指导结构查询。在 GenEval 和 T2I-CompBench 上达到了最先进的结果。
ViT-Up: 视觉Transformer的忠实特征上采样
ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]。