HNC:利用困难负样本描述提升模型的细粒度视觉-语言理解能力
摘要
本文介绍了困难负样本描述(HNC),这是一种数据集和方法,旨在通过解决网络采集的图文对中存在的弱关联问题,训练视觉-语言模型以实现细粒度理解。
arXiv:2605.06157v1 公告类型:new
摘要:图文匹配(ITM)是从大规模语料库中学习通用表示的主流方法之一,广泛应用于视觉与语言(VL)领域。然而,由于网络采集的图文对之间关联较弱,模型难以对多模态联合语义表现出细粒度的理解。为解决这一问题,我们提出了困难负样本描述(HNC):一个自动生成的数据集,包含用于ITM训练的具有干扰性的困难负样本描述,旨在实现视觉-语言领域的细粒度跨模态理解。此外,我们还提供了一个具有挑战性的人工构建测试集,用于在不同组合复杂度水平上对模型的细粒度跨模态不匹配任务进行基准测试。实验结果表明,通过在HNC上训练,模型在诊断任务中检测不匹配方面的零样本能力得到提升,并且在存在噪声的视觉输入场景中表现出更强的鲁棒性。此外,我们还证明了HNC模型为微调提供了相当或更优的初始化效果。
查看缓存全文
缓存时间: 2026/05/08 07:18
# HNC:利用难负样本标题提升模型的细粒度视觉-语言理解能力 来源:https://arxiv.org/abs/2605.06157 查看 PDF (https://arxiv.org/pdf/2605.06157) > 摘要:图像-文本匹配(ITM)是从大规模语料库中学习通用表示的视觉与语言(VL)事实标准方法之一。然而,由于网络收集的图像-文本对之间关联较弱,模型未能展现出对多模态组合语义的细粒度理解。为解决这一问题,我们提出了难负样本标题(HNC):一个自动构建的数据集,包含用于 ITM 训练的具有挑战性的难负样本标题,旨在实现视觉与语言领域中的细粒度跨模态理解。此外,我们提供了一个具有挑战性的手工构建测试集,用于在具有不同组合复杂度的细粒度跨模态不匹配任务上对模型进行基准测试。我们的结果表明,在 HNC 上进行训练能够有效提升模型在诊断任务中检测不匹配情况的零样本能力,并在嘈杂视觉输入场景下表现出鲁棒性。此外,我们证明了 HNC 模型能够为微调提供可比性或更优的初始化效果。 ## 提交历史 来自:Esra Dönmez \[查看邮件 (https://arxiv.org/show-email/26fa9ba5/2605.06157)\] **\[v1\]** 2026 年 5 月 6 日 星期三 14:01:47 UTC (21,966 KB)
相似文章
Concrete Jungle:利用词汇具体性铺路,革新对比负样本挖掘以提升组合理解
提出 Slipform 训练框架,借助词汇具体性筛选更困难的负样本,并引入基于边界的 Cement 损失,显著提升视觉-语言模型的组合推理能力。
打破幻觉:多模态解码中正负信号的博弈
本文提出了正负解码(PND),这是一种无需训练的推理框架,通过在解码过程中对比正向视觉证据与负向反事实来减少视觉-语言模型中的对象幻觉。
FADE:通过减少语言先验主导性来缓解大型视觉语言模型中的幻觉
本文提出FADE,一种无需训练的方法,通过削弱关键层的FFN输出来减少语言先验主导性,从而缓解大型视觉语言模型中的幻觉,并在多个基准测试中证明了有效性。
Lens:重新思考基础文本到图像模型的训练效率
Lens是微软推出的一款紧凑型38亿参数文本到图像模型,在训练计算量显著降低的同时,通过密集描述、多分辨率批处理和高效架构,达到了与更大模型竞争甚至超越的性能。
大型语言模型教导视觉学生:细粒度概念知识的跨模态迁移
本文介绍了LaViD框架,该框架通过生成多项选择题作为概念签名,将语义知识从纯语言大语言模型转移到视觉学生模型,实现了优越的细粒度分类性能和鲁棒性。