Concrete Jungle:利用词汇具体性铺路,革新对比负样本挖掘以提升组合理解

Hugging Face Daily Papers 论文

摘要

提出 Slipform 训练框架,借助词汇具体性筛选更困难的负样本,并引入基于边界的 Cement 损失,显著提升视觉-语言模型的组合推理能力。

视觉-语言模型展现出卓越能力,但在组合推理方面常显薄弱,易受词序及属性绑定错误影响。其根本原因在于对比预训练阶段缺乏能区分细微语义差异的丰富样本。尽管困难负样本挖掘被视为良方,现有方法却缺少明确机制来决定应修改哪些语言成分。本文不额外设计生成式架构,而将“词汇具体性”确立为负样本有效性的根本决定因素:对高具体性词语的改动会带来更显著的结构与视觉差异,从而提供更强劲的学习信号。基于该原理,我们提出 ConcretePlant,系统化地分离并操控具有感知基础的概念。进一步分析 InfoNCE 发现严重的梯度失衡——易区分样本对在优化中占据主导,挤占了细腻学习的带宽。为缓解此退化,我们设计基于边界的 Cement 损失,通过将心理语言学评分与样本难度关联,动态校准各训练对的惩罚强度。综合实验验证了理论假设,集成框架 Slipform 在多样组合评估基准、跨模态检索及单/多标签线性探测任务上均达到 SOTA 精度。
查看原文
查看缓存全文

缓存时间: 2026/04/21 11:27

论文页面 - Concrete Jungle:面向组合理解的基于具体性铺路对比负样本挖掘

来源:https://huggingface.co/papers/2604.13313

摘要

视觉-语言模型在组合推理方面面临挑战,原因在于区分细微语义所需的样本不足。本文通过基于词汇具体性的负样本选择以及一种新的基于间隔的损失函数来解决这一问题。

视觉-语言模型(https://huggingface.co/papers?q=Vision-Language%20Models)展现出卓越能力,但在组合推理(https://huggingface.co/papers?q=compositional%20reasoning)上常常表现不佳,对词序和属性绑定尤为脆弱。这一限制源于对比预训练(https://huggingface.co/papers?q=contrastive%20pretraining)阶段缺乏足够信息量的样本来区分细微语义差异。尽管困难负样本挖掘(https://huggingface.co/papers?q=hard%20negative%20mining)提供了有前景的补救方案,现有方法却缺乏明确机制来决定应修改哪些语言成分。本研究不依赖生成式架构,而是将词汇具体性(https://huggingface.co/papers?q=lexical%20concreteness)确立为负样本有效性的根本决定因素。修改高具体性词汇会产生更显著的结构与视觉差异,从而提供更强的学习信号。基于这一原理,我们提出 ConcretePlant,以系统地分离并操控感知上可落地的概念。对 InfoNCE(https://huggingface.co/papers?q=InfoNCE)的进一步分析揭示严重的梯度失衡(https://huggingface.co/papers?q=gradient%20imbalance):易于区分的样本对在优化过程中占据主导地位,挤占了细微学习所需的带宽。为缓解这一退化,我们设计 Cement loss(https://huggingface.co/papers?q=Cement%20loss),采用基于间隔的方法。该目标通过将心理语言学评分与样本难度相关联,动态校准对每个训练对的惩罚强度。综合实验验证了理论主张。整合后的框架 Slipform(https://huggingface.co/papers?q=Slipform)在多个组合评估基准、跨模态检索、单标签与多标签线性探测任务上均达到 SOTA 精度。

查看 arXiv 页面(https://arxiv.org/abs/2604.13313)
查看 PDF(https://arxiv.org/pdf/2604.13313)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.13313)

在本地 agent 中获取该论文:

hf papers read 2604.13313

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接到该论文

在模型 README.md 中引用 arxiv.org/abs/2604.13313,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接到该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.13313,即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接到该论文

在 Space README.md 中引用 arxiv.org/abs/2604.13313,即可在此页面显示链接。

收录该论文的合集 1

相似文章

对抗性概念搜索:从特征几何预测组合错误

arXiv cs.AI

本文提出对抗性概念搜索(Adversarial Concept Search),一种利用大型语言模型表示几何来预测组合性失败的方法,无需评估特定输入。该方法通过测量显著特征之间的干扰来识别高风险场景。

CopT: 用于通用与智能体推理的连续空间对比在线思考

Hugging Face Daily Papers

CopT为大型语言模型引入了一种对比性在线思考框架,首先生成草稿答案,然后通过对比验证和动态思考来提高准确性并减少token消耗。在数学、代码和智能体推理任务上,准确率最高提升23%,token使用量最多降低57%。