Concrete Jungle：利用词汇具体性铺路，革新对比负样本挖掘以提升组合理解

Hugging Face Daily Papers 2026/04/14 00:00 论文

摘要

提出 Slipform 训练框架，借助词汇具体性筛选更困难的负样本，并引入基于边界的 Cement 损失，显著提升视觉-语言模型的组合推理能力。

视觉-语言模型展现出卓越能力，但在组合推理方面常显薄弱，易受词序及属性绑定错误影响。其根本原因在于对比预训练阶段缺乏能区分细微语义差异的丰富样本。尽管困难负样本挖掘被视为良方，现有方法却缺少明确机制来决定应修改哪些语言成分。本文不额外设计生成式架构，而将“词汇具体性”确立为负样本有效性的根本决定因素：对高具体性词语的改动会带来更显著的结构与视觉差异，从而提供更强劲的学习信号。基于该原理，我们提出 ConcretePlant，系统化地分离并操控具有感知基础的概念。进一步分析 InfoNCE 发现严重的梯度失衡——易区分样本对在优化中占据主导，挤占了细腻学习的带宽。为缓解此退化，我们设计基于边界的 Cement 损失，通过将心理语言学评分与样本难度关联，动态校准各训练对的惩罚强度。综合实验验证了理论假设，集成框架 Slipform 在多样组合评估基准、跨模态检索及单/多标签线性探测任务上均达到 SOTA 精度。

查看原文

查看缓存全文

缓存时间: 2026/04/21 11:27

论文页面 - Concrete Jungle：面向组合理解的基于具体性铺路对比负样本挖掘

来源：https://huggingface.co/papers/2604.13313

摘要

视觉-语言模型在组合推理方面面临挑战，原因在于区分细微语义所需的样本不足。本文通过基于词汇具体性的负样本选择以及一种新的基于间隔的损失函数来解决这一问题。

视觉-语言模型（https://huggingface.co/papers?q=Vision-Language%20Models）展现出卓越能力，但在组合推理（https://huggingface.co/papers?q=compositional%20reasoning）上常常表现不佳，对词序和属性绑定尤为脆弱。这一限制源于对比预训练（https://huggingface.co/papers?q=contrastive%20pretraining）阶段缺乏足够信息量的样本来区分细微语义差异。尽管困难负样本挖掘（https://huggingface.co/papers?q=hard%20negative%20mining）提供了有前景的补救方案，现有方法却缺乏明确机制来决定应修改哪些语言成分。本研究不依赖生成式架构，而是将词汇具体性（https://huggingface.co/papers?q=lexical%20concreteness）确立为负样本有效性的根本决定因素。修改高具体性词汇会产生更显著的结构与视觉差异，从而提供更强的学习信号。基于这一原理，我们提出 ConcretePlant，以系统地分离并操控感知上可落地的概念。对 InfoNCE（https://huggingface.co/papers?q=InfoNCE）的进一步分析揭示严重的梯度失衡（https://huggingface.co/papers?q=gradient%20imbalance）：易于区分的样本对在优化过程中占据主导地位，挤占了细微学习所需的带宽。为缓解这一退化，我们设计 Cement loss（https://huggingface.co/papers?q=Cement%20loss），采用基于间隔的方法。该目标通过将心理语言学评分与样本难度相关联，动态校准对每个训练对的惩罚强度。综合实验验证了理论主张。整合后的框架 Slipform（https://huggingface.co/papers?q=Slipform）在多个组合评估基准、跨模态检索、单标签与多标签线性探测任务上均达到 SOTA 精度。

查看 arXiv 页面（https://arxiv.org/abs/2604.13313）
查看 PDF（https://arxiv.org/pdf/2604.13313）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.13313）

在本地 agent 中获取该论文：

hf papers read 2604.13313

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接到该论文

在模型 README.md 中引用 arxiv.org/abs/2604.13313，即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接到该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.13313，即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接到该论文

在 Space README.md 中引用 arxiv.org/abs/2604.13313，即可在此页面显示链接。

Concrete Jungle：利用词汇具体性铺路，革新对比负样本挖掘以提升组合理解

论文页面 - Concrete Jungle：面向组合理解的基于具体性铺路对比负样本挖掘

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 1

相似文章

HNC：利用困难负样本描述提升模型的细粒度视觉-语言理解能力

对抗性概念搜索：从特征几何预测组合错误

CopT: 用于通用与智能体推理的连续空间对比在线思考

COMPASS：在统一多模态模型中锚定组合意图引导

研究求助：观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]

提交意见反馈