句子编码器中概念表征的原则

arXiv cs.CL 论文

摘要

本文通过组合语义学的视角研究句子编码器中概念表征的原则,确定了四个关键原则:微调重新校准潜在几何结构,语义信号集中在最后一层,困难负样本提高区分性但不提高排序,监督有效性取决于组合类型。

arXiv:2606.06994v1 公告类型:新 摘要:是什么让句子编码器产生良好的概念表示?我们通过表示组合性的视角来探讨这一问题:只有当编码器的潜在空间允许对应语义算子以低失真方式实现时,它才支持一个概念族。这一框架既能预测当前编码器成功之处,也能预测它们在结构上与监督信号不匹配的地方。通过对在WordNet和Wiktionary的330万对同义词和定义对上进行训练的编码器条件进行受控消融实验,在三个去污染分割集和一个修饰语标记的名词短语基准上评估,我们确定了四个原则。微调重新校准了潜在几何结构,而非扩展它(P1)。语义信号在概念特定训练开始前集中在最终的Transformer层,使得跨层池化变得多余(P2)。困难负样本提高了区分性和压力测试鲁棒性,但不提高检索排序,表明校准和排序可以独立处理(P3)。最后,监督的有效性取决于目标概念的组合类型。外延训练有助于交集和子集族,但会降低关系和内涵族,暴露了当前训练范式的结构性限制(P4)。我们发布了两个新的评估数据集:一个DBpedia语义差距基准和一个修饰语标记的名词短语释义套件。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:21

# 句子编码器中概念表示的原则
来源:https://arxiv.org/html/2606.06994
Isabelle Mohr1,2, John Dujany2, Jonathan Souquet2, Andre Freitas1,1Idiap Research Institute,2Merck KGaA, 通信邮箱:isabelle\.mohr@idiap\.ch (https://arxiv.org/html/2606.06994v1/mailto:[email protected])

###### 摘要

是什么让句子编码器产生好的概念表示?我们通过表示组合性的透镜来探讨这个问题:只有当潜在空间允许对应语义算子的低失真实现时,编码器才能支持一个概念家族。这个框架既预测了当前编码器成功之处,也指出了它们在结构上与监督信号不匹配的地方。通过一个受控消融实验,对基于WordNet和Wiktionary的330万同义词和定义对训练、并在三个去污分割和一个修饰语标注的名词短语基准上评估的编码器条件,我们识别出四个原则。微调重新校准了潜在几何结构而非扩展它(P1)。在概念特定训练开始前,语义信号集中在最终Transformer层,使跨层池化变得冗余(P2)。难负样本提升了区分能力和压力测试稳健性,但未改善检索排名,表明校准和排名是可独立处理的目标(P3)。最后,监督的有效性取决于目标概念的组合类型。外延训练有助于交集性和下交性家族,但损害了关系性和内涵性家族,揭示了当前训练范式的结构性局限(P4)。我们发布了两个新的评估数据集:一个DBpedia语义鸿沟基准和一个修饰语标注的NP释义套件。

句子编码器中概念表示的原则

Isabelle Mohr1,2, John Dujany2, Jonathan Souquet2, Andre Freitas1,1Idiap Research Institute,2Merck KGaA, 通信邮箱:isabelle\.mohr@idiap\.ch (https://arxiv.org/html/2606.06994v1/mailto:[email protected])

冻结编码器 (B0) 各向异性 0.126 “有人咽下最后一口气的地方” deathPlace 语义鸿沟 dirty cup filthy cup not clean cup 表面形式分割 a mammal not a mammal 不可区分 概念等价监督 InfoNCE + 0.5 BCE ⋅ 330万对 syn dirty cup not clean cup ↑ sim t2d deathPlace “有人咽下最后一口气的地方” ↑ sim hn a mammal not a mammal ↓ sim 拉近(等价对) 推开(难负样本) 重塑几何结构 微调编码器 (B1) 各向异性 0.012 “有人咽下最后一口气的地方” deathPlace 弥合 not clean cup dirty cup filthy cup 概念簇 (P1) a mammal not a mammal 否定分离 (P3)

图1:概念等价微调示例。B0:冻结编码器按表面形式分割同义释义(青色),混淆否定(橙色),并将自然语言查询与结构化目标(蓝色)分离。中心:通过InfoNCE拉近同义词(syn)和术语-定义(t2d)对;通过BCE推开难负样本(hn)。B1:空间被重新校准——释义聚类(P1),语义鸿沟弥合,否定分离(P3)。

## 1 引言

语义组合性是语言学和哲学中的一个原则,即复杂表达的意义源于其各个组成部分的意义以及这些组件被结构和组合的方式 (Frege, 1892 (https://arxiv.org/html/2606.06994#bib.bib1))。为了使编码器产生忠实的概念表示,它们必须捕捉概念组合性。不同类型的修饰语,如交集性、下交性、关系性、模态性和排他性,通过根本不同的语义算子贡献意义 (Carvalho et al., 2025 (https://arxiv.org/html/2606.06994#bib.bib8)),然而句子编码器必须在单个潜在几何结构内实现所有这些算子,并通过一个相似度函数评分。我们的理论视角是,编码器中的概念组合性是一个近似同态问题(在附录D (https://arxiv.org/html/2606.06994#A4) 中形式化)。只有当概念家族所需的类型化语义算子允许低失真几何实现时,编码器才能产生好的概念表示。本文提出并回答的实证问题是,当前句子编码器已经支持了该结构的哪些部分,以及哪些部分仍然与用于训练它们的监督不匹配。

我们通过概念检索来研究这个问题,这使得概念组合的表示质量可以直接测量。编码器必须将查询映射到与任何指称等价的目标相同的区域,无论表面形式如何。复杂名词性结构带来了严峻挑战。交集性、关系性和排他性修饰语各自通过不同的算子实现意义,然而所有算子都必须共存于一个由单一相似度函数评分的潜在几何结构内。这是一种基本的组合张力,如图1 (https://arxiv.org/html/2606.06994#S0.F1) 几何所示。这种张力仍然是一个开放问题的证据来自我们的否定压力测试,其中最佳冻结基线的得分是0.470 ROC-AUC(低于随机水平),将否定定义的相似度赋予高于正确定义。

几个设计维度是缩小这一差距的自然候选。在概念等价对上进行微调可能会将潜在空间重塑为正确的几何结构。在读出层面,探测研究表明上层Transformer层比下层编码更多的语义信息 (Peters et al., 2018 (https://arxiv.org/html/2606.06994#bib.bib17); Jawahar et al., 2019 (https://arxiv.org/html/2606.06994#bib.bib7); Tenney et al., 2019 (https://arxiv.org/html/2606.06994#bib.bib16)),这推动了跨层池化作为候选改进方法。难负样本监督可能进一步锐化对近乎错误的干扰项的区分。理论上,尚无关于句子编码器何时能支持给定修饰语组合家族的形式化说明,也无关于当前训练目标成功或失败的几何条件的说明。

我们将实证研究围绕三个假设展开。H1 *(微调是必要的):* 概念等价微调显著改善了复杂名词性结构的检索,优于冻结基线。H2 *(跨层池化):* 多层上的加权或输入自适应混合优于微调后的平均池化。H3 *(难负样本):* 难负样本监督除了校准之外还能改善检索排名。

#### 贡献。

(T) ε\_τ\\varepsilon\_\\\{\\tau\\\} - 组合性框架:我们引入了一个形式化特征描述,说明句子编码器何时支持给定的修饰语组合家族:fθf\_\\{\\theta\\} 是 ετ\\varepsilon\_{\\tau} - 组合性的,如果对于修饰语类型 τ\\tau 存在一个低失真潜在算子 Φτ\\Phi\_{\\tau}。这识别出两个相互作用的瓶颈(表示性瓶颈和目标性瓶颈),并从头原理预测了修饰语家族模式 (P4)。形式化界限在附录D (https://arxiv.org/html/2606.06994#A4) 中推导。我们另外识别出组合概念表示的四个实证原则。(P1) 重新校准,而非扩展:概念等价微调重塑了潜在几何结构,将各向异性从0.126降至0.012,并将术语到定义的Recall@10从0.552提升至0.654,同时有效秩保持不变。微调重新校准了空间中哪些区域会坍缩在一起,而并未扩展空间。(P2) 最终层集中在微调之前:句子级预训练已将语义信号集中在最终Transformer层,这解释了为何在概念等价微调后跨层池化没有带来一致的好处。这在NP释义和术语到定义任务上都得到确认。(P3) 校准和排名是可分离的:难负样本改善了区分度(ROC-AUC +0.19–+0.46),但未改善检索排名,确立了校准和排名是可分离的训练目标。(P4) 监督必须匹配组合类型:概念等价训练改善了交集性和下交性家族,但损害了关系性和内涵性类型,揭示了仅等价监督与类型化语义算子之间的根本性不匹配。我们还发布了两个新的评估数据集:一个DBpedia语义鸿沟基准(3k训练/250测试,零词汇重叠)和一个修饰语标注的NP释义套件(跨越五种组合家族的4,000对)。

## 2 相关工作

#### 密集检索与对比学习。

Sentence-BERT (Reimers and Gurevych, 2019 (https://arxiv.org/html/2606.06994#bib.bib2)) 确立了微调后的双编码器作为实用的密集检索器,SimCSE (Gao et al., 2021 (https://arxiv.org/html/2606.06994#bib.bib3)) 表明带有难负样本的批内对比目标改善了表示几何结构。我们将此接口扩展到概念等价检索,并发现语义信号主导了句子微调编码器的最后层,限制了跨层池化的益处。

#### 生物医学概念标准化。

BioSyn (Sung et al., 2020 (https://arxiv.org/html/2606.06994#bib.bib4))、SapBERT (Liu et al., 2021 (https://arxiv.org/html/2606.06994#bib.bib5)) 和 BioLORD (Remy et al., 2022 (https://arxiv.org/html/2606.06994#bib.bib6)) 证明同义词边际化和定义感知对比训练显著改善了生物医学实体检索,且 Tutubalina et al. (2020 (https://arxiv.org/html/2606.06994#bib.bib12)) 表明报告的准确率很大程度上取决于分割设计。将词典定义作为概念监督的训练有先例支持 (Hill et al., 2016 (https://arxiv.org/html/2606.06994#bib.bib14); Carvalho et al., 2023 (https://arxiv.org/html/2606.06994#bib.bib15));我们以同样的方式使用WordNet/Wiktionary的同义词和定义对,但将分析集中在微调的机制上,并引入了先前工作中缺失的受控修饰语类型评估。

#### 分布组合与修饰语敏感性。

组合分布语义学 (Mitchell and Lapata, 2010 (https://arxiv.org/html/2606.06994#bib.bib21); Baroni and Zamparelli, 2010 (https://arxiv.org/html/2606.06994#bib.bib22)) 表明类型化组合算子优于统一算子,且形容词指称取决于语义角色——这直接推动了第3节 (https://arxiv.org/html/2606.06994#S3) 中的 ε\_τ\\varepsilon\_{\\tau} - 组合性框架。我们基准背后的修饰语类型学(交集性、下交性、关系性、模态性、排他性)起源于形式语义学 (Partee, 1995 (https://arxiv.org/html/2606.06994#bib.bib23)),而 Ettinger et al. (2018 (https://arxiv.org/html/2606.06994#bib.bib11))、Shwartz (2019 (https://arxiv.org/html/2606.06994#bib.bib13)) 和 Carvalho et al. (2025 (https://arxiv.org/html/2606.06994#bib.bib8)) 表明这些区分对当代编码器仍然构成问题。我们的NP释义基准将这些关注点操作化为一个带有显式修饰语家族标签的检索任务,据我们所知,这是首个在Montague修饰语家族中分层检索性能的工作。

#### 层分布与几何结构。

探测研究建立了预训练Transformer的较低层编码句法,而较高层编码语义 (Peters et al., 2018 (https://arxiv.org/html/2606.06994#bib.bib17); Jawahar et al., 2019 (https://arxiv.org/html/2606.06994#bib.bib7); Tenney et al., 2019 (https://arxiv.org/html/2606.06994#bib.bib16); Rogers et al., 2020 (https://arxiv.org/html/2606.06994#bib.bib18)),Ethayarajh (2019 (https://arxiv.org/html/2606.06994#bib.bib9)) 表明这种层次结构反映在各向异性中:较高层在几何上更均匀且更适用于任务。我们发现这种分布在句子微调编码器中消失:先前的对比训练已将语义信号集中在最终层,而概念等价微调进一步锐化,使得跨层读出没有可用的东西。虽然双曲几何 (Nickel and Kiela, 2017 (https://arxiv.org/html/2606.06994#bib.bib10); Valentino et al., 2024 (https://arxiv.org/html/2606.06994#bib.bib20)) 在理论上提供了更丰富的层次结构,但我们的结果确认,一旦空间得到良好校准,几何选择的重要性次于训练监督。

## 3 表示组合性

### 3.1 问题设置

令 X\\mathcal\{X\} 为文本空间(术语、名词短语、定义、本体标签)。我们学习一个编码器 fθ:X→Rdf\_\{\\theta\}:\\mathcal\{X\}\\to\\mathbb\{R\}^\{d\} 和一个检索得分 scoreθ\(q,y\)∈R\\mathrm\{score\}\_\{\\theta\}\(q,y\)\\in\\mathbb\{R\}。给定一个查询 qq 和一个候选池 D=\{y1,...,yN\}\\mathcal\{D\}=\\\{y\_\{1\},\\dots,y\_\{N\}\\\},目标是将语义等价的候选排在前面:

scoreθ\(q,y\+\)\\displaystyle\\mathrm\{score\}\_\{\\theta\}\(q,y^\{\+\}\)\>scoreθ\(q,y−\)\\displaystyle\>\\mathrm\{score\}\_\{\\theta\}\(q,y^\{\-\}\) 当⟦q⟧=⟦y\+⟧≠⟦y−⟧,\\displaystyle\\quad\\text\{whenever \}\\llbracket q\\rrbracket=\\llbracket y^\{\+\}\\rrbracket\\neq\\llbracket y^\{\-\}\\rrbracket, 其中 ⟦⋅⟧\\llbracket\\cdot\\rrbracket 表示概念指称。实践中,正例包括同义词对、术语-定义对以及来自同一概念的不同源定义对。难例是零重叠三元组,其中正确答案 y\+y^\{\+\} 与 qq 没有共享任何表面标记。

### 3.2 从语义组合到表示组合

语义组合性本身并不保证组合表示。令 fθ:X→Rdf\_\{\\theta\}:\\mathcal\{X\}\\to\\mathbb\{R\}^\{d\} 为句子编码器。我们说 fθf\_\{\\theta\} 对于修饰语家族 τ\\tau 是 ετ\\varepsilon\_\{\\tau\} - 组合性的,如果存在一个潜在算子

Φτ:Rd×Rd→Rd\\Phi\_\{\\tau\}:\\mathbb\{R\}^\{d\}\\times\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\} 使得对于所有类型为 τ\\tau 的有效修饰语-中心词对 (m,h)(m,h),

‖fθ\(m∘τh\)−Φτ\(fθ\(m\),fθ\(h\)\)‖≤ετ。\\left\\lVert f\_\{\\theta\}\\\!\\left\(m\\circ\_\{\\tau\}h\\right\)\-\\Phi\_\{\\tau\}\\\!\\left\(f\_\{\\theta\}\(m\),f\_\{\\theta\}\(h\)\\right\)\\right\\rVert\\leq\\varepsilon\_\{\\tau\}。这个定义明确地建立了概念组合性与几何组合性之间的桥梁。语义组合是类型化的,但编码器必须在一个共享的潜在空间中实现所有这些算子。概念检索因此依赖于相关 Φτ\\Phi\_\{\\tau\} 的低失真以及一个将指称等价表达式排在非等价干扰项之上的评分函数。

附录D (https://arxiv.org/html/2606.06994#A4) 形式化了这些定义,并为每种组合家族推导了检索失真的理论界限。

### 3.3 为什么池化嵌入存在困难

根据 Montague 语义学 (Carvalho et al., 2025 (https://arxiv.org/html/2606.06994#bib.bib8)),复杂名词性结构的指称为:

⟦m∘τh⟧=Cτ\(⟦m⟧,⟦h⟧\),\\llbracket m\\circ\_\{\\tau\}h\\rrbracket=C\_\{\\tau\}\\\!\\bigl\(\\llbracket m\\rrbracket,\\,\\llbracket h\\rrbracket\\bigr\), 其中 τ\\tau 是修饰语组合类型,CτC\_\{\\tau\} 是类型特定的算子。不同的修饰语类型实例化出实质不同的 CτC\_\{\\tau\}。这五种类型构成了 Montague 生成语义学下修饰语组合的标准完整类型学 (Carvalho et al., 2025 (https://arxiv.org/html/2606.06994#bib.bib8)),涵盖从外延集合交集(交集性)到内涵非实例化(排他性)的完整范围。一个池化向量 z\(x\)=g\(H\(1\),...,H\(L\)\)z\(x\)=g\(H^\{\(1\)\},\\dots,H^\{\(L\)\}\)

相似文章

稀疏自编码器中概念学习与神经元解释的几何视角

arXiv cs.LG

本文提出了一个统一的几何框架,用于理解稀疏自编码器中的概念学习和神经元解释,将概念形式化为集合,并定义了检测、分离和近似。它提供了误差界、容量约束,并与形式概念分析建立了联系,同时在合成数据上进行了实验。

Stateful Visual Encoders for Vision-Language Models

Hugging Face Daily Papers

本文介绍了一种用于视觉-语言模型的有状态视觉编码器,该编码器基于先前的特征来调节视觉表示,从而在多图像和智能体设置中实现更好的视觉比较。该方法在跨图像空间聚合、纵向放射学等任务上展现出一致的改进。

嵌入模型如何绑定概念?

Hugging Face Daily Papers

本文探讨了CLIP为何在概念绑定上表现不佳,表明虽然CLIP的绑定函数复杂度高,但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数,从而更好地泛化。