HNC：利用困难负样本描述提升模型的细粒度视觉-语言理解能力

arXiv cs.CL 2026/05/08 04:00 论文

摘要

本文介绍了困难负样本描述（HNC），这是一种数据集和方法，旨在通过解决网络采集的图文对中存在的弱关联问题，训练视觉-语言模型以实现细粒度理解。

arXiv:2605.06157v1 公告类型：new 摘要：图文匹配（ITM）是从大规模语料库中学习通用表示的主流方法之一，广泛应用于视觉与语言（VL）领域。然而，由于网络采集的图文对之间关联较弱，模型难以对多模态联合语义表现出细粒度的理解。为解决这一问题，我们提出了困难负样本描述（HNC）：一个自动生成的数据集，包含用于ITM训练的具有干扰性的困难负样本描述，旨在实现视觉-语言领域的细粒度跨模态理解。此外，我们还提供了一个具有挑战性的人工构建测试集，用于在不同组合复杂度水平上对模型的细粒度跨模态不匹配任务进行基准测试。实验结果表明，通过在HNC上训练，模型在诊断任务中检测不匹配方面的零样本能力得到提升，并且在存在噪声的视觉输入场景中表现出更强的鲁棒性。此外，我们还证明了HNC模型为微调提供了相当或更优的初始化效果。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 07:18

# HNC：利用难负样本标题提升模型的细粒度视觉-语言理解能力
来源：https://arxiv.org/abs/2605.06157
查看 PDF (https://arxiv.org/pdf/2605.06157)

> 摘要：图像-文本匹配（ITM）是从大规模语料库中学习通用表示的视觉与语言（VL）事实标准方法之一。然而，由于网络收集的图像-文本对之间关联较弱，模型未能展现出对多模态组合语义的细粒度理解。为解决这一问题，我们提出了难负样本标题（HNC）：一个自动构建的数据集，包含用于 ITM 训练的具有挑战性的难负样本标题，旨在实现视觉与语言领域中的细粒度跨模态理解。此外，我们提供了一个具有挑战性的手工构建测试集，用于在具有不同组合复杂度的细粒度跨模态不匹配任务上对模型进行基准测试。我们的结果表明，在 HNC 上进行训练能够有效提升模型在诊断任务中检测不匹配情况的零样本能力，并在嘈杂视觉输入场景下表现出鲁棒性。此外，我们证明了 HNC 模型能够为微调提供可比性或更优的初始化效果。

## 提交历史

来自：Esra Dönmez \[查看邮件 (https://arxiv.org/show-email/26fa9ba5/2605.06157)\] **\[v1\]** 2026 年 5 月 6 日 星期三 14:01:47 UTC (21,966 KB)

相似文章

Concrete Jungle：利用词汇具体性铺路，革新对比负样本挖掘以提升组合理解

Hugging Face Daily Papers

提出 Slipform 训练框架，借助词汇具体性筛选更困难的负样本，并引入基于边界的 Cement 损失，显著提升视觉-语言模型的组合推理能力。

视觉语言模型在多语言否定理解上的差异

arXiv cs.CL

MIT 研究人员发布首个涵盖七种语言的多语言否定基准，发现 CLIP 等模型在非拉丁文字上表现不佳，而 MultiCLIP 与 SpaceVLM 在各语言间的提升并不均衡。

HyperLens：利用细粒度置信度轨迹量化大型语言模型的认知努力

arXiv cs.AI

本文介绍了 HyperLens，一种高分辨率探针，可通过追踪层间的细粒度置信度轨迹来量化大型语言模型（LLMs）的认知努力。研究表明，复杂任务需要更高的认知努力，并展示了监督微调（SFT）如何降低这种努力，从而可能导致性能下降。

HyperGVL：大型视觉-语言模型在超图理解和推理中的基准测试与改进

arXiv cs.CL

HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准，包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR，一个可泛化的路由器，通过自适应超图表示改进 LVLM 性能。

MNAFT：用于图像翻译的多模态大语言模型模态神经元感知微调