嵌入模型如何绑定概念?

Hugging Face Daily Papers 论文

摘要

本文探讨了CLIP为何在概念绑定上表现不佳,表明虽然CLIP的绑定函数复杂度高,但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数,从而更好地泛化。

人类在多物体场景中能轻易判断哪种颜色属于哪个形状,这种能力称为概念绑定。视觉-语言嵌入模型(如CLIP)在绑定时表现困难:它们能识别个别概念,但未能表示哪些概念构成哪些物体。尽管CLIP在跨模态检索中表现得像是一个词袋模型,但物体信息仍可分别从其图像和文本嵌入中恢复。我们通过绑定函数(将概念映射到场景嵌入)研究这一矛盾。我们发现场景嵌入可加性分解为物体表示,这解释了为何单模态探针能恢复物体信息。然而,CLIP的绑定函数复杂度高,可能阻碍图像和文本编码器学习共享的绑定机制,从而无法泛化到未见过的概念组合。随后我们探讨这一限制是否为根本性的。我们证明并非如此。在从头训练的受控Transformer模型中,在足够的数据覆盖下,绑定泛化得以出现。这些模型学习到低复杂度的绑定函数,其特点是通过概念之间的乘法交互,从而实现系统性泛化。代码公开于 https://github.com/oshapio/binding-concepts-complexity。
查看原文
查看缓存全文

缓存时间: 2026/06/01 15:20

论文页面 - 嵌入模型如何绑定概念?

来源:https://huggingface.co/papers/2605.31503

摘要

像CLIP这样的视觉-语言模型虽然能识别单个概念,但在概念绑定方面存在困难;而经过控制的Transformer模型可以通过乘法交互学习低复杂度的绑定函数,从而更好地实现泛化。

人类在多物体场景中能轻松判断哪个颜色属于哪个形状,这种能力被称为概念绑定 (https://huggingface.co/papers?q=concept%20binding)。诸如CLIP (https://huggingface.co/papers?q=CLIP) 之类的视觉-语言嵌入模型 (https://huggingface.co/papers?q=Vision-language%20embedding%20models) 在绑定方面存在困难:它们能识别单个概念,但无法表示哪些概念组成了哪些物体。尽管CLIP (https://huggingface.co/papers?q=CLIP) 在跨模态检索 (https://huggingface.co/papers?q=cross-modal%20retrieval) 中表现得像一个概念袋模型,但物体信息可以分别从其图像和文本嵌入中恢复。我们通过绑定函数 (https://huggingface.co/papers?q=binding%20function) 来研究这一张力,该函数将概念映射到场景嵌入 (https://huggingface.co/papers?q=scene%20embeddings)。我们发现场景嵌入 (https://huggingface.co/papers?q=scene%20embeddings) 可加性分解为物体表示 (https://huggingface.co/papers?q=object%20representations),这解释了为什么单模态探针能够恢复物体信息。然而,CLIP (https://huggingface.co/papers?q=CLIP) 的绑定函数 (https://huggingface.co/papers?q=binding%20function) 复杂度很高,这很可能阻碍了图像和文本编码器学习一个共享的绑定机制,从而无法泛化到未见过的概念组合。接着,我们探究这一局限是否是根本性的。我们证明并非如此。在从零训练的受控Transformer模型 (https://huggingface.co/papers?q=transformer%20models) 中,当数据覆盖充分时,绑定泛化 (https://huggingface.co/papers?q=generalization) 就会涌现。这些模型学习到了低复杂度的绑定函数 (https://huggingface.co/papers?q=binding%20function),其特征是概念之间的乘法交互 (https://huggingface.co/papers?q=multiplicative%20interactions),从而实现了系统性泛化 (https://huggingface.co/papers?q=generalization)。代码已在 https://github.com/oshapio/binding-concepts-complexity 公开。

查看arXiv页面 (https://arxiv.org/abs/2605.31503) 查看PDF (https://arxiv.org/pdf/2605.31503) GitHub0 (https://github.com/oshapio/binding-concepts-complexity) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31503)

在你的agent中获取此论文:

hf papers read 2605\.31503

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

尚无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.31503,即可在此页面链接。

引用本论文的数据集0

尚无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.31503,即可在此页面链接。

引用本论文的Space0

尚无Space链接此论文

在SpaceREADME.md中引用arxiv.org/abs/2605.31503,即可在此页面链接。

包含本论文的收藏0

尚无收藏包含此论文

将本论文添加到收藏 (https://huggingface.co/new-collection),即可在此页面链接。

相似文章

模型能建模,但不能绑定:文本到优化中的结构化接地

arXiv cs.LG

本文介绍了Text2Opt-Bench,一个可扩展的文本到优化基准,并发现大语言模型在“绑定”(问题数据接地)方面存在困难,而非“建模”(选择优化结构)。作者提出了BIND,一种简单的推理时方法,将数值数据外部化,显著提高了各模型的准确率。

语言模型中基于单元的关系绑定表示

arXiv cs.CL

研究表明,大型语言模型通过“基于单元的绑定表示”(CBR)对篇章级关系绑定进行编码:一种低维线性子空间,每个“单元”对应实体-关系索引对,为模型如何追踪实体与关系提供了因果证据。

CLIP:连接文本与图像

OpenAI Blog

CLIP 是 OpenAI 的视觉语言模型,从互联网上的文本-图像对中学习,实现零样本视觉分类,无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力,解决了传统计算机视觉的主要局限性。

使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。