HNC:利用困难负样本描述提升模型的细粒度视觉-语言理解能力

arXiv cs.CL 论文

摘要

本文介绍了困难负样本描述(HNC),这是一种数据集和方法,旨在通过解决网络采集的图文对中存在的弱关联问题,训练视觉-语言模型以实现细粒度理解。

arXiv:2605.06157v1 公告类型:new 摘要:图文匹配(ITM)是从大规模语料库中学习通用表示的主流方法之一,广泛应用于视觉与语言(VL)领域。然而,由于网络采集的图文对之间关联较弱,模型难以对多模态联合语义表现出细粒度的理解。为解决这一问题,我们提出了困难负样本描述(HNC):一个自动生成的数据集,包含用于ITM训练的具有干扰性的困难负样本描述,旨在实现视觉-语言领域的细粒度跨模态理解。此外,我们还提供了一个具有挑战性的人工构建测试集,用于在不同组合复杂度水平上对模型的细粒度跨模态不匹配任务进行基准测试。实验结果表明,通过在HNC上训练,模型在诊断任务中检测不匹配方面的零样本能力得到提升,并且在存在噪声的视觉输入场景中表现出更强的鲁棒性。此外,我们还证明了HNC模型为微调提供了相当或更优的初始化效果。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:18

# HNC:利用难负样本标题提升模型的细粒度视觉-语言理解能力
来源:https://arxiv.org/abs/2605.06157
查看 PDF (https://arxiv.org/pdf/2605.06157)

> 摘要:图像-文本匹配(ITM)是从大规模语料库中学习通用表示的视觉与语言(VL)事实标准方法之一。然而,由于网络收集的图像-文本对之间关联较弱,模型未能展现出对多模态组合语义的细粒度理解。为解决这一问题,我们提出了难负样本标题(HNC):一个自动构建的数据集,包含用于 ITM 训练的具有挑战性的难负样本标题,旨在实现视觉与语言领域中的细粒度跨模态理解。此外,我们提供了一个具有挑战性的手工构建测试集,用于在具有不同组合复杂度的细粒度跨模态不匹配任务上对模型进行基准测试。我们的结果表明,在 HNC 上进行训练能够有效提升模型在诊断任务中检测不匹配情况的零样本能力,并在嘈杂视觉输入场景下表现出鲁棒性。此外,我们证明了 HNC 模型能够为微调提供可比性或更优的初始化效果。

## 提交历史

来自:Esra Dönmez \[查看邮件 (https://arxiv.org/show-email/26fa9ba5/2605.06157)\] **\[v1\]** 2026 年 5 月 6 日 星期三 14:01:47 UTC (21,966 KB)

相似文章

MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调

Hugging Face Daily Papers

论文页面 - MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调 来源:[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期:4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/6582c482f3006507ea10302a/KbgSsq0FnbMngBcWPhIXi.jpeg)](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)