Concrete Jungle:利用词汇具体性铺路,革新对比负样本挖掘以提升组合理解
摘要
提出 Slipform 训练框架,借助词汇具体性筛选更困难的负样本,并引入基于边界的 Cement 损失,显著提升视觉-语言模型的组合推理能力。
查看缓存全文
缓存时间: 2026/04/21 11:27
论文页面 - Concrete Jungle:面向组合理解的基于具体性铺路对比负样本挖掘
来源:https://huggingface.co/papers/2604.13313
摘要
视觉-语言模型在组合推理方面面临挑战,原因在于区分细微语义所需的样本不足。本文通过基于词汇具体性的负样本选择以及一种新的基于间隔的损失函数来解决这一问题。
视觉-语言模型(https://huggingface.co/papers?q=Vision-Language%20Models)展现出卓越能力,但在组合推理(https://huggingface.co/papers?q=compositional%20reasoning)上常常表现不佳,对词序和属性绑定尤为脆弱。这一限制源于对比预训练(https://huggingface.co/papers?q=contrastive%20pretraining)阶段缺乏足够信息量的样本来区分细微语义差异。尽管困难负样本挖掘(https://huggingface.co/papers?q=hard%20negative%20mining)提供了有前景的补救方案,现有方法却缺乏明确机制来决定应修改哪些语言成分。本研究不依赖生成式架构,而是将词汇具体性(https://huggingface.co/papers?q=lexical%20concreteness)确立为负样本有效性的根本决定因素。修改高具体性词汇会产生更显著的结构与视觉差异,从而提供更强的学习信号。基于这一原理,我们提出 ConcretePlant,以系统地分离并操控感知上可落地的概念。对 InfoNCE(https://huggingface.co/papers?q=InfoNCE)的进一步分析揭示严重的梯度失衡(https://huggingface.co/papers?q=gradient%20imbalance):易于区分的样本对在优化过程中占据主导地位,挤占了细微学习所需的带宽。为缓解这一退化,我们设计 Cement loss(https://huggingface.co/papers?q=Cement%20loss),采用基于间隔的方法。该目标通过将心理语言学评分与样本难度相关联,动态校准对每个训练对的惩罚强度。综合实验验证了理论主张。整合后的框架 Slipform(https://huggingface.co/papers?q=Slipform)在多个组合评估基准、跨模态检索、单标签与多标签线性探测任务上均达到 SOTA 精度。
查看 arXiv 页面(https://arxiv.org/abs/2604.13313)
查看 PDF(https://arxiv.org/pdf/2604.13313)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.13313)
在本地 agent 中获取该论文:
hf papers read 2604.13313
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接到该论文
在模型 README.md 中引用 arxiv.org/abs/2604.13313,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接到该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.13313,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 链接到该论文
在 Space README.md 中引用 arxiv.org/abs/2604.13313,即可在此页面显示链接。
收录该论文的合集 1
相似文章
HNC:利用困难负样本描述提升模型的细粒度视觉-语言理解能力
本文介绍了困难负样本描述(HNC),这是一种数据集和方法,旨在通过解决网络采集的图文对中存在的弱关联问题,训练视觉-语言模型以实现细粒度理解。
对抗性概念搜索:从特征几何预测组合错误
本文提出对抗性概念搜索(Adversarial Concept Search),一种利用大型语言模型表示几何来预测组合性失败的方法,无需评估特定输入。该方法通过测量显著特征之间的干扰来识别高风险场景。
CopT: 用于通用与智能体推理的连续空间对比在线思考
CopT为大型语言模型引入了一种对比性在线思考框架,首先生成草稿答案,然后通过对比验证和动态思考来提高准确性并减少token消耗。在数学、代码和智能体推理任务上,准确率最高提升23%,token使用量最多降低57%。
COMPASS:在统一多模态模型中锚定组合意图引导
本文提出了COMPASS,首个能够同时锚定组合意图控制,以进行组合感知和组合引导生成的统一多模态框架,并引入了共享专家令牌和Comp-11数据集。
研究求助:观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]
一项实证研究表明,长篇幅、语义密集且良性的文本能够偏移模型的潜在空间并绕过对齐,促使其生成原本被屏蔽的评论。作者并非专家,请求对其指标进行审计,以区分真正的语义劫持与假象。