文本语义信息的几何轮廓:框架条件唯一性与标量摘要的权衡三角形
摘要
本文开发了一个几何框架,利用句子嵌入来衡量文本的语义内容,提出了一个三维语义轮廓(新颖性、广度、整合性)和一个标量权衡三角形,并在合成类别和小说中进行了验证。
arXiv:2606.11222v1 Announce Type: new
摘要:一段文本承载了多少意义?香农理论测量的是符号上的不确定性,并有意识地对意义无动于衷;而诸如BERTScore之类的成对度量比较的是两段文本,而不是描述单段文本。我们开发了一个几何框架,通过文本句子嵌入的结构来测量语义内容。
该框架包含三个部分。首先,在固定的嵌入和基线条件下,六个自然公理唯一确定了一个标量度量(尺度上至多差一个常数因子),即框架条件唯一性定理。得到的标量在经验上过于粗糙,需要更丰富的表示。其次,我们提出了一个三维语义轮廓,捕捉新颖性(偏离通用话语的程度)、广度(不同思想的多样性)和整合性(它们之间的关联度),以及一个离散的最小单元(语义量子),其分辨率由聚类阈值$\tau$固定。第三,我们证明了一个不可能性定理:没有标量摘要能够同时满足释义和拼接下的分析稳定性、跨文本尺度的序数鲁棒性以及跨表示的可比性。我们展示了两个实用的标量,$S_{\mathrm{minmax}}$和$S_{\mathrm{rank}}$,它们各自占据了这个权衡三角形的一个角落。
在23个合成类别、5部Project Gutenberg小说和3个嵌入模型上的验证证实了这种权衡。推荐的秩归一化配置在28个序数检查中通过了25个作为点估计(经Benjamini-Hochberg校正后通过21个),优于包括单字熵和基于BERTScore的新颖性信号在内的七个基线。另一个变分结果将广度坐标与行列式点过程的对数行列式联系起来(在507个Gutenberg章节上Spearman $\rho = 0.985$),为广度提供了优化理论基础。
查看缓存全文
缓存时间: 2026/06/11 13:36
# 文本语义信息的几何轮廓:基于框架的条件唯一性与标量摘要的权衡三角形
**来源:** https://arxiv.org/html/2606.11222
###### 摘要
一个文本承载了多少意义?香农的理论衡量的是符号上的不确定性,并有意对意义保持中立;而诸如 BERTScore 等成对指标比较的是两个文本,而非刻画单个文本。我们开发了一个几何框架,通过文本句子嵌入的结构来衡量语义内容。该框架包含三个部分。首先,在固定的嵌入和基线内,六个自然公理唯一确定了一个标量度量(至多相差一个尺度因子)——这是一个基于框架的条件唯一性定理。所得的标量在经验上过于粗糙,从而催生了一种更丰富的表征。其次,我们提出了一个三维的“语义轮廓”,分别捕捉“新颖性”(与一般性语篇的偏离)、“广度”(不同思想的多样性)和“整合度”(思想之间的关联性),以及一个离散的最小单元——“语义量子”,其分辨率由聚类阈值 τ 确定。第三,我们证明了一个不可能定理:没有一种对轮廓的标量总结能同时满足释义与拼接下的解析稳定性、跨文本尺度的序数鲁棒性,以及跨表征的可比性。我们提出了两个实用的标量,S_minmax 和 S_rank,它们分别占据了这个权衡三角形的不同角落。在 23 个合成类别、5 部古腾堡计划小说和 3 个嵌入模型上的验证证实了这种权衡。推荐的秩归一化配置在 28 项序数检查中有 25 项通过(经 Benjamini-Hochberg 校正后为 21/28),优于包括 unigram 熵和基于 BERTScore 的新颖性信号在内的 7 个基线。一个独立的变分结果将广度坐标与行列式点过程的对数行列式联系起来(在 507 个古腾堡章节上 Spearman ρ=0.985),为广度提供了优化理论基础。
## 1 引言
香农的信息论量化的是符号序列上的不确定性,而非语义内容 [9](https://arxiv.org/html/2606.11222#bib.bib9)。具有相似词元统计特性的文本可能在意义上截然不同,而释义则能在词汇变化的同时保留意义。因此,任何文本的语义度量都必须基于意义的表征,而非仅仅基于句法上的不可预测性。当代的嵌入模型提供了这样一种表征 [6](https://arxiv.org/html/2606.11222#bib.bib6), [7](https://arxiv.org/html/2606.11222#bib.bib7)。句子和段落可以被映射到高维向量空间,其中几何关系编码了语义相似性。这提示了一种几何方法:一个文本的语义内容应反映在其嵌入云的结构中。该云团相对于中性基线的位移、其扩散程度及其内部连通性都是可直接测量的,并且共同构成了比任何标量都更丰富的描述符。
#### 与现有工作的关系。
本文的框架与香农信息论 [9](https://arxiv.org/html/2606.11222#bib.bib9) 是互补的,而非替代关系:香农描述的是形式上的不可预测性,而本文的轮廓描述的是意义上的几何特性。香农的普适性源于存在一个规范基元(符号分布)和一个干净的组合规则(联合熵);正如我们在第 6 节 [§6](https://arxiv.org/html/2606.11222#S6) 所示,语义两者皆不具备。该框架也不同于成对的文本相似度度量(如 BERTScore、BLEURT 和 ROUGE),后者衡量的是两个文本之间的相似性,而非单个文本内部的内在丰富性;我们在第 8.5 节 [§8.5](https://arxiv.org/html/2606.11222#S8.SS5) 中将基于 BERTScore 的新颖性信号作为基线。哲学上的语义信息解释 [1](https://arxiv.org/html/2606.11222#bib.bib1), [3](https://arxiv.org/html/2606.11222#bib.bib3), [4](https://arxiv.org/html/2606.11222#bib.bib4), [2](https://arxiv.org/html/2606.11222#bib.bib2) 提供了严谨的逻辑框架,但无法在实际文本上计算。
#### 贡献。
本文做出了四项贡献:
1. **基于框架的条件唯一性定理(第 3 节 [§3](https://arxiv.org/html/2606.11222#S3))**。在固定的嵌入和基线内,六个自然公理唯一确定了语义信息法则 \(I_E(T) = \|\mu_T - \mu_0\| \cdot \mathrm{rank}(C_T)\) 至多相差一个尺度因子。这是一个基于表征的条件性结果,而非香农式的普适法则;经验上它过于粗糙,因此催生了轮廓。
2. **三维轮廓与语义量子(第 4-5 节 [§§4](https://arxiv.org/html/2606.11222#S4)–[§5](https://arxiv.org/html/2606.11222#S5))**。轮廓 \((N, B, I)\) 分别捕捉新颖性、广度和整合度。量子是一个离散的最小单元,其分辨率由聚类阈值 τ 设定,使测量分辨率显式化。
3. **不可能定理:权衡三角形(第 6 节 [§6](https://arxiv.org/html/2606.11222#S6))**。没有一种对轮廓的标量总结能同时满足释义与拼接下的解析稳定性、序数鲁棒性以及跨表征的可比性。两个实用的标量 \(S_{\mathrm{minmax}}\) 和 \(S_{\mathrm{rank}}\)(第 7 节 [§7](https://arxiv.org/html/2606.11222#S7))各自占据了一个不同的角落。
4. **经验验证与变分刻画(第 8-9 节 [§§8](https://arxiv.org/html/2606.11222#S8)–[§9](https://arxiv.org/html/2606.11222#S9))**。在 23 个合成类别、5 部古腾堡小说和 3 个嵌入模型上,带权重 (0.5, 3.0, 1.0) 的 \(S_{\mathrm{rank}}\) 在 28 项序数检查中有 25 项通过点估计,并击败了 7 个基线。此外,广度坐标在经验上等于行列式点过程的对数行列式(在 507 个章节上 ρ=0.985),为 B 提供了优化理论基础。
该框架的核心观点是:文本中的语义信息是一个“由表征索引的结构化轮廓”,而非一个普适的标量。轮廓是理论上的对象;标量总结是实用的便利工具,其形式反映了不可能结果。
## 2 符号与表示
设 T 为一个文本,划分为片段 \(T = (T_1, \dots, T_k)\),并设 \(E: \text{Text} \to \mathbb{R}^n\) 为一个句子嵌入模型,其中 \(e_i = E(T_i)\)。原始嵌入云为 \(X_T = \{e_1, \dots, e_k\}\),均值为 \(\mu_T\),协方差矩阵为 \(C_T\)。设 \(\mu_0\) 和 \(\Sigma_0\) 为中性基线语料库的均值和协方差,均通过 E 进行嵌入。测量内部语义结构的基本困难在于重复和近似重复会扭曲几何结构。为消除这一伪影,该框架首先使用凝聚层次聚类(基于余弦距离和阈值 \(\tau \in (0,1)\))对高度相似的片段进行聚类,然后用每个聚类的(重新归一化后的)质心替换原片段。令 \(\tilde{T} = \{c_1, \dots, c_m\}\) 表示这些去重后的质心。我们将在第 5 节 [§5](https://arxiv.org/html/2606.11222#S5) 中正式阐述这些质心作为“语义量子”的解释,以及 τ 作为测量分辨率参数的作用。
### 2.1 框架的范围
本框架明确地由表征索引:下文定义的每个量都依赖于测量设备的固定选择。这些依赖关系包括:
- 嵌入模型 E;
- 分割规则(句子、分句、固定长度块);
- 通过 \(\mu_0\) 和 \(\Sigma_0\) 定义的基线语料库;
- 去重阈值 τ;
- 用于任何标量总结的归一化参考集。
这种依赖性是特征而非缺陷。它使得框架的承诺可检查、可按领域校准,并且与第 6 节 [§6](https://arxiv.org/html/2606.11222#S6) 中不存在无表征语义标量的不可能结果相一致。
## 3 语义信息法则:基于框架的条件唯一性
### 3.1 公理
我们假设六个公理,用于约束在固定框架 \((E, \mu_0)\) 内的任何标量度量 \(I: \text{Text} \to \mathbb{R}\):
1. **释义不变性**:当 \(E(T) \approx E(T')\) 时,\(I(T) = I(T')\)。
2. **冗余不增性**:对片段的精确复制不会增加 I。
3. **新颖性单调性**:对于固定的协方差,I 关于 \(\|\mu_T - \mu_0\|\) 单调。
4. **思想可加性**:对于正交嵌入子空间中的文本,\(I(T_1 \oplus T_2) = I(T_1) + I(T_2)\)。
5. **正交不变性**:I 在嵌入空间的旋转下不变。
6. **连续性**:I 关于嵌入连续。
### 3.2 推导
###### 定理 1(表征框架内的 SIL)
在公理 1–6 下,任何这样的度量(至多相差一个正常数尺度因子)具有形式:
\[
I_E(T) = \|\mu_T - \mu_0\| \cdot \mathrm{rank}(C_T).
\]
*证明概要*:公理 3 和 5 将对 \(\mu_T\) 的依赖简化为标量 \(S(T) = \|\mu_T - \mu_0\|\)。公理 5 将对 \(C_T\) 的依赖简化为其谱。公理 2 消除了特征值大小,仅留下 \(\mathrm{rank}(C_T)\)。公理 4 对联合依赖施加了一个 Cauchy 函数方程,其连续解(公理 6)是线性的;在位移变量上的另一个 Cauchy 方程产生了乘积形式。完整推导见附录。
### 3.3 地位
定理 1 是在表征框架 \((E, \mu_0)\) 内的唯一性定理,并非香农式的普适法则。经验上,原始 \(\mathrm{rank}(C_T)\) 在神经嵌入空间中饱和(即使是短文本也占据许多非零特征方向),并且 \(\|\mu_T - \mu_0\|\) 主导了乘积。因此,该标量在公理下是唯一的,但在经验上并不充分,从而催生了三维轮廓。
## 4 语义轮廓
轮廓 \(P_E(T) = (N, B, I)\) 用三个几何上不同的坐标替换了 SIL 标量:新颖性 N(与一般性语篇的偏离)、广度 B(不同思想的多样性)以及整合度 I(这些思想之间的关联性)。在给出正式定义之前,表 1 预览了在几种体裁上这些坐标的取值,说明了它们如何区分单个标量会混淆的文本类型。
**表 1:五种体裁上的轮廓坐标(来自 §C.4,all-mpnet-base-v2)。** 诗歌狭窄且连贯;对话广泛且话题跳跃;法律文本广泛且连贯;代码注释在最广泛的方向上与整合度相反。没有单一数字能像这三个坐标一样区分这些轮廓。
### 4.1 新颖性
\[
S_M(T) = \sqrt{(\mu_T - \mu_0)^\top \Sigma_0^{-1} (\mu_T - \mu_0)}, \qquad N(T) = \log(1 + S_M(T)).
\]
\(\Sigma_0^{-1}\) 通过 Ledoit-Wolf 收缩 [5](https://arxiv.org/html/2606.11222#bib.bib5) 进行估计以确保可逆性。马氏距离形式使得在基线的低方差方向上位移被赋予更大权重;对数压缩限制了极端偏移。
### 4.2 广度
\[
D_{\mathrm{eff}}(\tilde{T}) = \exp\bigl(H(p)\bigr), \quad p_i = \lambda_i / {\textstyle\sum_j} \lambda_j, \qquad R(\tilde{T}) = \frac{1}{m} \sum_j \bigl[1 - \cos(c_j, \mu_{\tilde{T}})\bigr],
\]
\[
B(T) = D_{\mathrm{eff}}(\tilde{T}) \cdot R(\tilde{T}).
\]
\(D_{\mathrm{eff}}\) 是有效秩 [8](https://arxiv.org/html/2606.11222#bib.bib8);R 是到质心均值的平均径向余弦距离。定义在 \(\tilde{T}\) 上而非 \(X_T\) 上,使得精确和近似重复不会将其夸大。
### 4.3 整合度
\[
I_{\text{1-NN}}(T) = \frac{1}{m} \sum_j \max_{l \neq j} \cos(c_j, c_l), \qquad I_{\text{2-NN}}(T) = \frac{1}{m} \sum_j \mathrm{secondmax}_{l \neq j} \cos(c_j, c_l).
\]
第 8 节 [§8](https://arxiv.org/html/2606.11222#S8) 的验证表明,2-NN 与下面推荐的权重组合是唯一通过连贯 vs. 事实袋检查的配置。
## 5 语义量子
第 2 节 [§2](https://arxiv.org/html/2606.11222#S2) 中的去重步骤暗示了语义结构的一个离散单元。我们在本节中正式定义此单元,因为它构成了几个导出度量的基础,并使 τ 作为测量分辨率参数的角色显式化。
### 5.1 定义与区域
###### 定义 1(语义量子)
给定一个文本 T 及其片段嵌入 \(X_T = \{e_1, \dots, e_k\}\),以及阈值 \(\tau \in (0,1)\),量子集 \(Q_\tau(T) = \tilde{T} = \{c_1, \dots, c_m\}\) 是通过在余弦距离阈值 \(1-\tau\) 下对 \(X_T\) 进行凝聚层次聚类所产生的质心集合。每个 \(c_j \in Q_\tau(T)\) 是 T 在分辨率 τ 下的一个“语义量子”。量子计数为 \(m_\tau(T) = |Q_\tau(T)|\)。
该框架根据量子计数区分三个区域:
- **亚量子**(\(m_\tau \le 1\)):单个质心。新颖性可定义(质心相对于 \(\mu_0\) 的位移),但广度为零,整合度约定为最大。文本在语义空间中占据单个点,而非一个结构。
- **单量子**(\(m_\tau = 2\)):两个质心。这是所有三个坐标都非平凡定义的最小配置:新颖性(平均位移)、广度(对的角分离)和整合度(它们之间的余弦相似度)。
- **多量子**(\(m_\tau \ge 3\)):通用区域,其中广度和整合度捕捉独立变化的结构属性。
阈值 τ 起到测量分辨率参数的作用:在尺度 \(1-\tau\) 以下,测量装置无法分辨独立的语义单元。这与任何物理测量中的分辨率限制相似,并使得框架的表征承诺显式化而非隐藏。
## 6 不可能定理:权衡三角形
固定一族参数化的标量,形式为:
\[
S(T; \Phi) = \Phi\bigl( \varphi_N(N(T); \mathcal{R}), \varphi_B(B(T); \mathcal{R}), \varphi_I(I(T); \mathcal{R}) \bigr),
\]
其中 \(\mathcal{R}\) 是轮廓的参考集,每个 \(\varphi_X(\cdot; \mathcal{R})\) 是针对 \(\mathcal{R}\) 的逐坐标归一化。两个重要的选择:
- **最小-最大归一化**:\(\varphi^{\mathrm{mm}}(x; \mathcal{R}) = (x - \min \mathcal{R}_X) / (\max \mathcal{R}_X - \min \mathcal{R}_X)\) 对原始值 Lipschitz 连续,但只要 \(\mathcal{R}\) 包含异常值,就会压缩内部值。
- **秩归一化**:\(\varphi^{\mathrm{r}}(x; \mathcal{R}) = \mathrm{rank}_{\mathcal{R}}(x) / |\mathcal{R}|\) 是有界的,但分段常数。相似文章
语义空间的几何结构:离散与连续模型的比较研究
本文比较了深度学习向量嵌入(CamemBERT)和词汇共现图模型在法语“大国民辩论”语料库上引发的几何结构,发现局部拓扑相似但全局组织截然不同,凸显了两种方法的互补性。
几何至关重要:用于学习语义对应的3D基础先验
本文介绍了一个后训练框架,利用SAM3D的3D先验来改进2D基础特征中的语义对应,解决了左右混淆和重复部分等问题。该方法使用实例特定的3D重建,无需姿态注释或球面几何捷径。
随流而动:文本到图像模型中文本词元间的信息流动
本文研究了文本到图像模型中语义信息在文本词元间的分布情况,发现信息集中程度和跨条目交互显著影响图像生成的语义对齐。作者采用修补技术证明,在编码阶段进行简单干预即可提升对齐质量。
扩展单义性:从Claude 3 Sonnet中提取可解释特征
本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。
共享语义空间中的心理构念
本文提出一个框架,利用监督语义微分法将心理构念表示为共享词嵌入空间中的方向,从而实现不同测量工具和研究传统之间的比较。