嵌入模型如何绑定概念?
摘要
本文探讨了CLIP为何在概念绑定上表现不佳,表明虽然CLIP的绑定函数复杂度高,但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数,从而更好地泛化。
查看缓存全文
缓存时间: 2026/06/01 15:20
论文页面 - 嵌入模型如何绑定概念?
来源:https://huggingface.co/papers/2605.31503
摘要
像CLIP这样的视觉-语言模型虽然能识别单个概念,但在概念绑定方面存在困难;而经过控制的Transformer模型可以通过乘法交互学习低复杂度的绑定函数,从而更好地实现泛化。
人类在多物体场景中能轻松判断哪个颜色属于哪个形状,这种能力被称为概念绑定 (https://huggingface.co/papers?q=concept%20binding)。诸如CLIP (https://huggingface.co/papers?q=CLIP) 之类的视觉-语言嵌入模型 (https://huggingface.co/papers?q=Vision-language%20embedding%20models) 在绑定方面存在困难:它们能识别单个概念,但无法表示哪些概念组成了哪些物体。尽管CLIP (https://huggingface.co/papers?q=CLIP) 在跨模态检索 (https://huggingface.co/papers?q=cross-modal%20retrieval) 中表现得像一个概念袋模型,但物体信息可以分别从其图像和文本嵌入中恢复。我们通过绑定函数 (https://huggingface.co/papers?q=binding%20function) 来研究这一张力,该函数将概念映射到场景嵌入 (https://huggingface.co/papers?q=scene%20embeddings)。我们发现场景嵌入 (https://huggingface.co/papers?q=scene%20embeddings) 可加性分解为物体表示 (https://huggingface.co/papers?q=object%20representations),这解释了为什么单模态探针能够恢复物体信息。然而,CLIP (https://huggingface.co/papers?q=CLIP) 的绑定函数 (https://huggingface.co/papers?q=binding%20function) 复杂度很高,这很可能阻碍了图像和文本编码器学习一个共享的绑定机制,从而无法泛化到未见过的概念组合。接着,我们探究这一局限是否是根本性的。我们证明并非如此。在从零训练的受控Transformer模型 (https://huggingface.co/papers?q=transformer%20models) 中,当数据覆盖充分时,绑定泛化 (https://huggingface.co/papers?q=generalization) 就会涌现。这些模型学习到了低复杂度的绑定函数 (https://huggingface.co/papers?q=binding%20function),其特征是概念之间的乘法交互 (https://huggingface.co/papers?q=multiplicative%20interactions),从而实现了系统性泛化 (https://huggingface.co/papers?q=generalization)。代码已在 https://github.com/oshapio/binding-concepts-complexity 公开。
查看arXiv页面 (https://arxiv.org/abs/2605.31503) 查看PDF (https://arxiv.org/pdf/2605.31503) GitHub0 (https://github.com/oshapio/binding-concepts-complexity) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31503)
在你的agent中获取此论文:
hf papers read 2605\.31503
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
尚无模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.31503,即可在此页面链接。
引用本论文的数据集0
尚无数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.31503,即可在此页面链接。
引用本论文的Space0
尚无Space链接此论文
在SpaceREADME.md中引用arxiv.org/abs/2605.31503,即可在此页面链接。
包含本论文的收藏0
尚无收藏包含此论文
将本论文添加到收藏 (https://huggingface.co/new-collection),即可在此页面链接。
相似文章
CLIF:用于透明瓶颈模型的概念级影响函数
本文提出CLIF,一种利用影响函数在概念瓶颈模型中对NLP模型进行样本级和概念级解释的方法,实现了透明的调试和概念级分析。
模型能建模,但不能绑定:文本到优化中的结构化接地
本文介绍了Text2Opt-Bench,一个可扩展的文本到优化基准,并发现大语言模型在“绑定”(问题数据接地)方面存在困难,而非“建模”(选择优化结构)。作者提出了BIND,一种简单的推理时方法,将数值数据外部化,显著提高了各模型的准确率。
语言模型中基于单元的关系绑定表示
研究表明,大型语言模型通过“基于单元的绑定表示”(CBR)对篇章级关系绑定进行编码:一种低维线性子空间,每个“单元”对应实体-关系索引对,为模型如何追踪实体与关系提供了因果证据。
CLIP:连接文本与图像
CLIP 是 OpenAI 的视觉语言模型,从互联网上的文本-图像对中学习,实现零样本视觉分类,无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力,解决了传统计算机视觉的主要局限性。
使用CLIP潜在表示的分层文本条件图像生成
OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。