语义空间的几何结构:离散与连续模型的比较研究

arXiv cs.CL 论文

摘要

本文比较了深度学习向量嵌入(CamemBERT)和词汇共现图模型在法语“大国民辩论”语料库上引发的几何结构,发现局部拓扑相似但全局组织截然不同,凸显了两种方法的互补性。

arXiv:2606.07183v1 公告类型:新 摘要:本文研究了NLP模型背后的语义几何结构。我们比较了监督向量嵌入(如CamemBERT)与更直接编码语义关系的词汇共现图。虽然基于Transformer的嵌入取得了强劲性能,但其引发的几何结构往往呈现不令人满意的分布。相比之下,基于图的模型揭示了更清晰、更具人类可读性的意义组织。我们实现了一种方法,可以根据这两种方法所引发的图结构或嵌入拓扑进行对比分析。比较结果——应用于法语“大国民辩论”语料库(公众辩论中公民贡献的集合)——显示局部拓扑相似,但整体结构和拓扑截然不同。这些发现表明深度监督模型与基于图的模型之间存在互补视角,为引导神经架构朝向更稳定和可解释的图结构收敛提供了新途径。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:22

# 离散模型与连续模型的比较研究
来源:https://arxiv.org/html/2606.07183

## 语义空间的几何结构:离散模型与连续模型的比较研究

加布里埃尔·布尼亚斯¹˒² 萨宾·普鲁²  
¹ISC-PIF(巴黎法兰西岛复杂系统研究所),法国国家科学研究中心,法国  
²CAMS(社会分析与数学中心),法国国家科学研究中心 & 法国社会科学高等研究院,巴黎,法国  
[email protected]  
[email protected]  

###### 摘要

本研究考察了 NLP 模型背后的语义几何结构。我们比较了监督式向量嵌入(如 CamemBERT)与更直接编码语义关系的词汇共现图。虽然基于 Transformer 的嵌入取得了强劲性能,但其诱导的几何结构往往呈现不令人满意的分布。相比之下,基于图的模型揭示出更清晰、更易读的意义组织方式。

我们实现了一种方法论,允许我们根据图的结构或这两种方法所诱导的嵌入的拓扑结构进行比较分析。

比较结果——应用于法文“全国大辩论”语料库(公众辩论的公民意见集合)——显示出相似的局部拓扑结构,但整体结构和拓扑却截然不同。这些发现表明深度监督模型与基于图的模型之间存在互补视角,为我们提供了一条引导神经架构向更稳定、更可解释的图形结构收敛的新途径。

语义空间的几何结构:离散模型与连续模型的比较研究

加布里埃尔·布尼亚斯¹˒² 萨宾·普鲁²  
¹ISC-PIF(巴黎法兰西岛复杂系统研究所),法国国家科学研究中心,法国  
²CAMS(社会分析与数学中心),法国国家科学研究中心 & 法国社会科学高等研究院,巴黎,法国  
[email protected]  
[email protected]

## 1 引言

自然语言构建了一个意义空间,每个单元根据语义邻近性找到自己的位置。这种涌现的几何结构是 NLP 模型如何反映其所处理语言的语义运作的关键标志。这种内部几何结构的产生反映了模型对语言单元使用的理解程度,或有效或不足。

在意义空间的词表示方面,主要有两种方法。源自深度学习(BERT、GPT 等)的向量模型将每个词映射到一个大维度的连续空间。相反,图模型依赖于离散结构,其中语言实体通过共现或词汇邻近性相连。这种构建使得邻域的出现更加明确,并允许对意义关系进行直接的几何分析。

因此,我们假设 NLP 模型的质量可以通过其诱导的结构的几何一致性来评估。将向量模型和图模型应用于同一语料库所产生的几何结构进行比较,突显了它们各自的局限性以及互补性。我们的目标是分析这些结构如何反映(或相反地,扭曲)语言中意义的组织方式,这种组织方式是人类所设想的。

## 2 建模

### 2.1 语料库与语言单元

在本比较研究中,我们首先需要达成一个共同的构建基础。为此,模型构建必须基于对同一语料库的分析。该分析基于“全国大辩论”语料库,该语料库源自 2019 年黄背心运动之后的公众咨询。该语料库约有一千万个句子,提供了足够的词汇和主题多样性,以探索特定话语背景下的意义动态。这一选择有助于限制解释的复杂性,同时确保所得语义几何结构之间的可比性。两种模型——基于向量的和基于图的——都应用于相同的文本基础,经过词形还原步骤(使用 *Simplemma*,Barbaresi (2023)(https://arxiv.org/html/2606.07183#bib.bib2)),以消除形态变化并确保整个分析中的语言一致性。

比较分析还需要定义一个共同的语义单元,以确保比较的一致性。本研究不是使用容易受语境多义性影响的孤立单词,而是采用常规共现团(co-occurrence cliques)作为语言单元 Jiet al. (2003)(https://arxiv.org/html/2606.07183#bib.bib4)。共现团定义为在相同上下文(如句子主干)中一起出现、概率高于预期的一组单词。这种方法更精确地捕捉多义性,因为每个团代表语料库中一个语境化且反复出现的意义配置。共现度使用点互信息(PMI)衡量,该指标量化了两个词之间超出随机水平的关联强度。通过应用频率和 PMI 的阈值,构建一个连接高度相关词的图,从中提取最大团作为参考语义单元。这种方法论选择提供了强语义精度,同时确保为比较两种范式下涌现的意义几何结构提供一致的基础。我们现在可以在此基础上开始构建两种模型。

### 2.2 图模型

在构建基于图的模型时,第一步是定义一个简单而稳健的度量,以量化共现团(即从语料库中提取的语义单元)之间的邻近性。我们引入一个单参数相似度函数,记作 \(s\),它结合了语言邻近性的两个互补维度:一方面是基于语境的相似性,通过单词在相似语境中的常规共现来捕捉;另一方面是词汇重叠,通过团之间共享的单词来捕捉。形式上,两个团 \(C_1\) 和 \(C_2\) 之间的相似度定义为:

\[
s(C_1,C_2) = \Bigg(1 + \lambda \frac{|C_1 \cap C_2|}{\max(|C_1|,|C_2|)}\Bigg) \times \sum_{(w_1,w_2) \in C_1 \times C_2} \frac{\operatorname{PPMI}(w_1,w_2)}{|C_1||C_2|}
\]

该方程通过 Positive PMI 值的交叉平均值来同时捕捉主题邻近性,并通过左侧由 \(\lambda\) 加权的系数来捕捉词汇重叠。参数 \(\lambda\) 控制语境和词汇分量之间的平衡,确保两者对最终相似度度量具有可比性的贡献。

一旦在所有团对之间计算了此相似度,我们构建一个图 \(G_c\),其节点对应共现团,边连接在 \(s\) 上超过相似度阈值的团。

### 2.3 监督式向量模型

### 2.4 连续模型的构建

为了在连续语义空间中对意义建模,我们依赖 CamemBERT (Martinet al. (2020)(https://arxiv.org/html/2606.07183#bib.bib7)),这是一个基于 RoBERTa 的 (Liuet al. (2019)(https://arxiv.org/html/2606.07183#bib.bib6)) Transformer 模型,使用掩码语言建模(MLM)目标在来自 OSCAR 语料库的 138 GB 法文文本上进行了预训练。CamemBERT 提供双向编码器架构,其中每个 token 关注同一序列中的所有其他 token。该模型具有 12 个注意力层和每层 12 个头,生成维度为 768 的上下文嵌入。其分词器 SentencePiece 将单词分割为子词单元,以更好地捕捉法语特有的形态和词汇变化。这种设置确保了模型能够稳健且语言连贯地处理多义性和屈折形态学。

我们使用该模型来嵌入从“全国大辩论”语料库¹¹¹https://www.data.gouv.fr/datasets/grand-debat-national-propositions 中提取的共现团。每个团 \(C\) 通过对其组成词的平均上下文嵌入来表示,这些嵌入是在该团最显著出现的 \(n_p\) 个句子上计算的。每个得到的向量 \(\mathbf{v}_C\) 位于高维连续语义空间中,每个点对应一个意义。

一个有用的观察是,这种表示使得能够基于团嵌入之间的余弦或欧几里得相似度导出图结构 \(G_b\)。最后,我们设计了程序来构建两种类型的图 \(G_c = (V, E_c, W_c)\) 和 \(G_b = (V, E_b, W_b)\):

\[
\begin{aligned}
V &= \{ C \mid \forall (w_i, w_j) \in C^2, \, \text{PMI}(w_i, w_j) > th_{\text{PMI}} \}, \\
E_c &= \{ (C_i, C_j) \mid s(C_i, C_j) > th_c \}, \\
E_b &= \{ (C_i, C_j) \mid s_v(\mathbf{v}_{C_i}, \mathbf{v}_{C_j}) > th_b \}, \\
W_c(C_i, C_j) &= \text{norm}\!\big(s(C_i, C_j)\big), \\
W_b(C_i, C_j) &= \text{norm}\!\big(s_v(\mathbf{v}_{C_i}, \mathbf{v}_{C_j})\big)
\end{aligned}
\]

其中:

\[
s_v(\mathbf{v}, \mathbf{w}) = \begin{cases}
1 - \dfrac{\|\mathbf{v} - \mathbf{w}\|_2}{d_{\max}}, & \text{(euclidean)} \\[4.0pt]
\dfrac{\mathbf{v} \cdot \mathbf{w}}{\|\mathbf{v}\| \|\mathbf{w}\|}, & \text{(cosine)}
\end{cases} \qquad (1)
\]

## 3 比较方法

### 3.1 图嵌入

比较这两种模型所传达语义内容的一个初步思路是从图结构出发,将其嵌入到向量空间中。这些方法已有充分文献记载,主要因为它们允许在保持关系信息的同时可视化图结构。在实践中,图嵌入是一种将图的每个节点分配到一个 \(n\) 维空间中的向量的应用。这种应用产生一组向量,每个向量对应 \(G_c\) 中的一个节点,也就是 \(V\) 中的一个团。所得集合及其几何结构可以直接与 CamemBERT 生成的向量空间中的涌现几何结构进行比较。在本研究中,我们使用 4 种图嵌入来加强比较:

- •**力导向方法** Eades (1984)(https://arxiv.org/html/2606.07183#bib.bib14),一种在 2D 中可视化图结构的常用方法。它基于物理系统中的能量最小化问题,通过建模弹簧链接来实现。
- •**谱方法**,基于图拉普拉斯矩阵的特征分解。它通过根据拉普拉斯谱最小化距离来嵌入节点,揭示保持全局连通性模式的低维结构。
- •**Isomap 方法** Tenenbaumet al. (2000)(https://arxiv.org/html/2606.07183#bib.bib13),一种保留图中节点间测地距离(在流形上)的技术。它利用谱分解来恢复结构的内在几何。
- •**Node2Vec** Grover and Leskovec (2016)(https://arxiv.org/html/2606.07183#bib.bib12),一种随机游走方法,通过分析图中随机游走过程中节点之间的关系来编码涌现度量中的邻近性。它是一种学习方法,通常需要很多维度。

### 3.2 图结构之间的比较

另一种比较两种模型的方法是,从基于 CamemBERT 的过程生成的向量空间出发,构建一个图 \(G_b\),其边反映向量之间的相似度。对两个图 \(G_c\) 和 \(G_b\) 的结构进行比较的方法使用了图论工具,例如聚类或广度优先搜索(BFS)子图。

聚类能够使用精确、可控的结构标准突出语料库中的词汇场。这是因为团之间通过构造被分组在一起,这些团全局上用于相同语境。因此,通过结构性地分析涌现几何结构中的分组,我们能够识别出不同程度的意义区域,这也将作为模型质量的评判标准。这里,我们特别依赖 Infomap 方法 Rosvall and Bergstrom (2011)(https://arxiv.org/html/2606.07183#bib.bib11)。该算法通过模拟信息在图上随机游走的流动来检测社区。其原理是使用信息论最小化随机游走者轨迹的描述长度。换句话说,该算法寻找图的一个划分,以允许对移动进行最优压缩,将频繁一起访问的节点分组。这种方法特别适用于我们的语境,因为它强调了语义区域的结构一致性,从而在结构的整体拓扑中形成意义区域。

这些比较方法的优点在于,它们允许在两种有充分文献记载的语义几何表示方式之间切换。

## 4 结果

为了对这两种模型进行比较,我们区分了每种比较类型所涉及的不同尺度问题。我们首先应用图嵌入的概念来研究局部层面上的意义排列。接着,我们尝试比较全局层面上的涌现几何结构。

### 4.1 局部结构

#### 4.1.1 BFS 子树

让我们首先分析比较两种模型生成的局部结构的相关性所产生的结果。每个模型为每个团定义了一个特定的语义邻域——在 \(G_c\) 中是离散的,在嵌入空间中是连续的。为了评估这两种几何结构在局部上的对齐程度,我们从 \(G_c\) 中提取围绕给定根团 \(C_i\) 的有限深度 BFS 树子图。每个 BFS 子树因此代表了该团的局部语义环境,由离散的共现结构定义。因此,我们首先比较由 \(G_c\) 嵌入生成的空间中的空间分布与由 CamemBERT 生成的向量空间中的空间分布,利用 \(G_c\) 的 BFS 子树和向量空间相似度。

![参照图注](图1:使用力导向方法嵌入的,从团 \(C = \)(舞蹈,歌剧,戏剧)出发的 \(G_c\) 的 BFS 子图(深度=3)。每个节点根据 CamemBERT 模型生成的空间中该节点的团与 \(C\) 之间的余弦相似度进行着色。节点大小与它们在 BFS 路径中到团 \(C\) 的距离成反比。注意标签原文为法语,此处已翻译。)

图1(https://arxiv.org/html/2606.07183#S4.F1)向我们展示了一个例子,说明两种模型局部几何结构是如何组织的。图模型展示了语义一致性(由于嵌入中的度量距离)的下降,这种下降与我们在两个团之间赋予的语义邻近性意义相一致的距离上发生。我们可以突出显示,例如,在团(舞蹈,歌剧,戏剧)和(舞蹈,音乐,绘画)之间,以及(舞蹈,歌剧,戏剧)和(图书馆,博物馆)之间涌现出的语义邻近性梯度。确实,我们预期这种邻近性的下降。对于连续模型内的几何结构,我们可以从余弦...(原文未完整)

相似文章

共享语义空间中的心理构念

arXiv cs.CL

本文提出一个框架,利用监督语义微分法将心理构念表示为共享词嵌入空间中的方向,从而实现不同测量工具和研究传统之间的比较。

论词汇性在大语言模型中的持续影响

arXiv cs.CL

本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。