嵌入模型如何绑定概念？

Hugging Face Daily Papers 2026/05/29 00:00 论文

concept-binding vision-language embedding-models clip transformer multiplicative-interactions generalization

摘要

本文探讨了CLIP为何在概念绑定上表现不佳，表明虽然CLIP的绑定函数复杂度高，但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数，从而更好地泛化。

人类在多物体场景中能轻易判断哪种颜色属于哪个形状，这种能力称为概念绑定。视觉-语言嵌入模型（如CLIP）在绑定时表现困难：它们能识别个别概念，但未能表示哪些概念构成哪些物体。尽管CLIP在跨模态检索中表现得像是一个词袋模型，但物体信息仍可分别从其图像和文本嵌入中恢复。我们通过绑定函数（将概念映射到场景嵌入）研究这一矛盾。我们发现场景嵌入可加性分解为物体表示，这解释了为何单模态探针能恢复物体信息。然而，CLIP的绑定函数复杂度高，可能阻碍图像和文本编码器学习共享的绑定机制，从而无法泛化到未见过的概念组合。随后我们探讨这一限制是否为根本性的。我们证明并非如此。在从头训练的受控Transformer模型中，在足够的数据覆盖下，绑定泛化得以出现。这些模型学习到低复杂度的绑定函数，其特点是通过概念之间的乘法交互，从而实现系统性泛化。代码公开于 https://github.com/oshapio/binding-concepts-complexity。

查看原文

查看缓存全文

缓存时间: 2026/06/01 15:20

论文页面 - 嵌入模型如何绑定概念？

来源：https://huggingface.co/papers/2605.31503

摘要

像CLIP这样的视觉-语言模型虽然能识别单个概念，但在概念绑定方面存在困难；而经过控制的Transformer模型可以通过乘法交互学习低复杂度的绑定函数，从而更好地实现泛化。

人类在多物体场景中能轻松判断哪个颜色属于哪个形状，这种能力被称为概念绑定 (https://huggingface.co/papers?q=concept%20binding)。诸如CLIP (https://huggingface.co/papers?q=CLIP) 之类的视觉-语言嵌入模型 (https://huggingface.co/papers?q=Vision-language%20embedding%20models) 在绑定方面存在困难：它们能识别单个概念，但无法表示哪些概念组成了哪些物体。尽管CLIP (https://huggingface.co/papers?q=CLIP) 在跨模态检索 (https://huggingface.co/papers?q=cross-modal%20retrieval) 中表现得像一个概念袋模型，但物体信息可以分别从其图像和文本嵌入中恢复。我们通过绑定函数 (https://huggingface.co/papers?q=binding%20function) 来研究这一张力，该函数将概念映射到场景嵌入 (https://huggingface.co/papers?q=scene%20embeddings)。我们发现场景嵌入 (https://huggingface.co/papers?q=scene%20embeddings) 可加性分解为物体表示 (https://huggingface.co/papers?q=object%20representations)，这解释了为什么单模态探针能够恢复物体信息。然而，CLIP (https://huggingface.co/papers?q=CLIP) 的绑定函数 (https://huggingface.co/papers?q=binding%20function) 复杂度很高，这很可能阻碍了图像和文本编码器学习一个共享的绑定机制，从而无法泛化到未见过的概念组合。接着，我们探究这一局限是否是根本性的。我们证明并非如此。在从零训练的受控Transformer模型 (https://huggingface.co/papers?q=transformer%20models) 中，当数据覆盖充分时，绑定泛化 (https://huggingface.co/papers?q=generalization) 就会涌现。这些模型学习到了低复杂度的绑定函数 (https://huggingface.co/papers?q=binding%20function)，其特征是概念之间的乘法交互 (https://huggingface.co/papers?q=multiplicative%20interactions)，从而实现了系统性泛化 (https://huggingface.co/papers?q=generalization)。代码已在 https://github.com/oshapio/binding-concepts-complexity 公开。

查看arXiv页面 (https://arxiv.org/abs/2605.31503) 查看PDF (https://arxiv.org/pdf/2605.31503) GitHub0 (https://github.com/oshapio/binding-concepts-complexity) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31503)

在你的agent中获取此论文：

hf papers read 2605\.31503

没有最新CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

尚无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.31503，即可在此页面链接。

引用本论文的数据集0

尚无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.31503，即可在此页面链接。

引用本论文的Space0

尚无Space链接此论文

在SpaceREADME.md中引用arxiv.org/abs/2605.31503，即可在此页面链接。

包含本论文的收藏0

尚无收藏包含此论文

将本论文添加到收藏 (https://huggingface.co/new-collection)，即可在此页面链接。

嵌入模型如何绑定概念？

论文页面 - 嵌入模型如何绑定概念？

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Space0

包含本论文的收藏0

相似文章

@kdariina：为什么嵌入模型难以实现绑定——多对象理解的核心要求？我们发现物体……

CLIF：用于透明瓶颈模型的概念级影响函数

模型能建模，但不能绑定：文本到优化中的结构化接地

语言模型中基于单元的关系绑定表示

CLIP：连接文本与图像

提交意见反馈