全息记忆用于知识图谱中的零样本组合推理:失败位置与原因的机制研究
摘要
本文研究了全息约简表示在知识图谱中零样本组合推理的应用,发现虽然单跳性能强劲,但组合推理仍因叠加记忆中的检索容量和干扰效应而失败,而非绑定-解绑代数的问题。
arXiv:2606.24948v1 公告类型:新提交
摘要:知识图谱嵌入(KGE)模型能够很好地预测单跳链接,但缺乏处理零样本组合查询的机制:这些多跳问题的关系链从未在训练中出现过。全息约简表示(HRR)通过循环卷积绑定和解绑符号,理论上是一个有吸引力的候选方案,因为绑定近似可逆且具有结合性。我们测试了这一承诺是否成立。
我们研究了两种全息记忆变体,实值HRR和纯相位傅里叶HRR(FHRR),均配备现代Hopfield清理机制,在FB15k-237数据集上进行了五次种子实验。得到四个发现。第一,两者在单跳检索中均具有竞争力(HRR过滤MRR为0.358 ± 0.002,FHRR为0.350 ± 0.021)。第二,两者均无法进行零样本组合:在所有清理温度下准确率均接近随机。第三,主要贡献在于,我们从机制上定位了失败原因。一跳探测显示,记忆能以高保真度恢复正确的中间实体(HRR的MRR为0.896 ± 0.002),但即使中间实体验证正确,组合仍然失败。第二次探测揭示了原因:将真实的第二跳事实作为独立的原子查询(完全绕过组合)时,其平均原子准确率仅为0.26至0.48倍,且均匀分布于不同关系扇出。瓶颈不在于绑定-解绑代数或清理机制,而在于组合链所经过的事实本身对于叠加记忆而言更难检索——这是一种在单跳中就已存在的容量和干扰效应。第四,我们证明了(引理4.1)FHRR的softmax清理机制不具备相位等变性,这加剧了在少数一跳本身出错的链上的主要失败。修复零样本组合需要提高叠加下的检索容量,而不仅仅是重新设计清理机制。
查看缓存全文
缓存时间: 2026/06/25 05:07
# 知识图谱中零样本组合推理的全息记忆:失效位置与原因的机制性研究
来源:https://arxiv.org/html/2606.24948
\(2026年6月\)
###### 摘要
知识图谱嵌入(KGE)模型能很好地预测单跳链接,但缺乏处理*零样本组合*查询的机制:训练中从未出现的关系链构成的多跳问题。全息约减表征(HRR)通过循环卷积绑定和解绑符号,在理论上是一个颇具吸引力的候选方案,因为绑定具有近似可逆性和结合性。我们检验这一承诺是否成立。
我们研究了两种全息记忆变体——实值HRR和仅相位傅里叶HRR(FHRR),各自搭配现代Hopfield清理机制,在FB15k-237数据集上基于五个随机种子进行实验。得到四个发现。第一,两者都是具有竞争力的单跳检索器(HRR的过滤MRR为0.358±0.002,FHRR为0.350±0.021)。第二,两者都无法实现零样本组合:在所有清理温度下,准确率均停留在随机水平。第三,也是主要贡献,我们从机制上定位了失效原因。一跳探测显示,记忆能以高保真度恢复正确的中间实体(HRR的MRR为0.896±0.002),但即便中间实体被验证正确,组合仍然失败。第二个探测揭示了原因:将*真实*第二跳事实作为独立的原子查询提出,完全绕过组合,其恢复准确率仅达到模型平均原子准确率的0.26至0.48倍,且与关系的扇出均匀相关。瓶颈不在于绑定-解绑代数或清理机制,而在于组合链所依赖的事实,对于叠加记忆而言本质上更难检索,这是一种在单跳中就已出现的容量和干扰效应。第四,我们证明了(引理4.1)FHRR的softmax清理机制不具有相位等变性,这在一跳自身出错的少数链上进一步加剧了主要失效。修复零样本组合需要提高叠加状态下的检索容量,而不仅仅是重新设计清理机制。
关键词:知识图谱嵌入·全息约减表征·向量符号架构·组合推理·现代Hopfield网络·零样本泛化。
## 1 引言
知识图谱将世界知识组织为类型化的三元组\(h,r,t\),例如\(Marie\_Curie, nationality, Poland\),而KGE方法将实体和关系嵌入到向量空间中,使得合理的三元组得分较高[2,18,16,14]。这些方法在单跳预测上表现良好。但许多实际查询并非单跳。"哪些行政区划包含某个人国籍的出生地?"需要将nationality与contains链接起来。如果这个精确的链在训练中从未出现,标准KGE模型无法回答:它缺少尝试的机制。这就是我们在此研究的*零样本组合推理*设置。
#### 为何采用全息记忆?
全息约减表征(HRR)[7]以及更广泛的向量符号架构(VSA)家族[6,12]定义了一种基于固定宽度分布式向量的代数,其中任意符号结构可以被*bind*(绑定)到单个向量中,随后被*unbind*(解绑)出来。关键操作——循环卷积——运行时间为\(O(D\log D)\),具有近似可逆性和结合性[7]。将事实作为绑定后的三元组叠加,并通过组合解绑操作来回答查询的全息记忆,原则上是一种自然的零样本组合推理器。现代Hopfield网络[9]提供了一个完全可微的关联清理步骤。问题在于,这个流水线在实践中是否真的能进行组合;如果不能,是哪一部分出了问题以及为什么。
#### 研究范围。
我们不声称性能优于监督式组合方法,如Query2Box[11]或CQD[1]。这些方法接收显式的路径级监督;而我们不提供此类监督。目标是理解仅靠全息绑定自身在零样本组合中能做什么,无需任何关系链监督。我们在FB15k-237[15]上采用泄漏控制的两跳协议进行研究,并通过五个独立随机种子验证所有结论。
#### 贡献。
1. 两种变体都是有竞争力的原子检索器。实值HRR达到过滤MRR 0.358±0.002,FHRR达到0.350±0.021,与同一基准上TransE和DistMult的性能范围相当。Hopfield消融实验表明,清理机制贡献了大约一半的性能(第6.1节)。
2. 两种变体在零样本两跳组合中失败。对每个种子的二项检验表明,两种模型在大多数种子中与随机水平无显著差异;在所有测试的清理温度下,准确率持平。训练并未比未训练的对照提供任何组合优势(第6.2节)。
3. 我们将失效定位到检索容量,而非清理代数。一跳探测显示,中间实体被高保真度地恢复(中间实体MRR≈0.85至0.90),但即使中间实体被验证正确,组合仍然停留在随机水平。第二个探测表明,对*真实*第二跳事实作为独立原子查询的单独检索,其准确率本身已降低到模型平均原子准确率的0.26至0.48倍,且与关系的扇出无关。组合链所依赖的事实对于叠加记忆而言本身就难以检索,这一点在组合或清理介入之前就已经存在(第6.4节)。
4. 我们证明了FHRR中一个额外的次要失效。引理4.1表明,softmax Hopfield清理机制与相位相加绑定不可交换。这在一跳检索不完美的链子集上加剧了主要失效(第6.4节)。
## 2 相关工作
#### 知识图谱嵌入。
TransE[2]将关系建模为实体空间中的平移,得分为\(\|h+r-t\|\)。DistMult[18]使用双线性对角得分;ComplEx[16]将其扩展到复数嵌入以处理非对称关系;RotatE[14]将关系视为复数空间中的逐元素旋转。这四个都是强大的单跳预测器,但都没有提供在测试时组合未见关系链的原生机制。
#### 组合与多跳推理。
有几条研究路线在显式监督下处理多跳推理。Guu等人[5]沿观察到的路径组合关系嵌入;NeuralLP[19]和RNNLogic[8]学习软逻辑规则。Query2Box[11]和BetaE[10]将存在性一阶查询嵌入为几何对象,在路径结构监督下进行训练。CQD[1]在推理时将复杂查询分解为原子链接预测。我们的设置更严格:零样本组合,没有路径级监督,也没有显式的中间实体表示。
#### 全息与向量符号记忆。
HRR[7]引入循环卷积作为绑定算子,建立在张量积变量绑定[13]之上。超维计算[6]和全面的VSA综述[12]涵盖了相关代数。FHRR变体[7,12]将符号编码为单位模相量,绑定操作为逐元素复数乘法。标准噪声分析显示,在叠加了\(K\)个事实时,恢复误差以\(O(\sqrt{K/D})\)的速度增长[7]。我们的机制探测(第6.4节)直接测量了组合推理所依赖的事实上的这种容量效应,而不是记忆整体的效应。谐振子网络[4]提出了一种迭代清理机制,该机制通过构造具有相位等变性,可能部分解决引理4.1中的次要失效模式。我们的结果表明,主要瓶颈位于清理机制的上游,即检索容量本身。
#### 现代Hopfield网络。
Ramsauer等人[9]表明,连续现代Hopfield网络的更新规则与缩放点积注意力一致,存储容量随\(D\)呈指数增长。我们将此用作一个可微的清理机制,将噪声干扰后的解绑估计映射回实体码本。其容量结果涉及从邻近查询中恢复单个模式。它们并不直接限制从叠加了\(K=272,115\)个其他事实(频率各异)中检索某个事实的准确性,而这正是我们探测所测量的。
## 3 问题形式化
设\(\mathcal{E}\)和\(\mathcal{R}\)分别表示有限的实体集合和关系集合;知识图谱是一组三元组\(\mathcal{T} \subseteq \mathcal{E} \times \mathcal{R} \times \mathcal{E}\),划分为不相交的训练集、验证集和测试集,分别为\(\mathcal{T}_{\mathrm{tr}}, \mathcal{T}_{\mathrm{va}}, \mathcal{T}_{\mathrm{te}}\)。
#### 单跳(原子)任务。
给定查询对\((h,r) \in \mathcal{E} \times \mathcal{R}\),预测\(t\)使得\((h,r,t) \in \mathcal{T}_{\mathrm{te}}\)。性能使用标准过滤协议下的过滤平均倒数排名(MRR)和Hits@k [2]。
#### 两跳组合任务。
对于关系链\((r_1,r_2) \in \mathcal{R}^2\),头部实体\(h\)的*组合答案集*为
\[
A_{h,r_1,r_2} = \bigl\{ t \in \mathcal{E} : \exists m \in \mathcal{E}, (h,r_1,m) \in \mathcal{T} \land (m,r_2,t) \in \mathcal{T} \bigr\}. \tag{1}
\]
模型必须仅根据\((h,r_1,r_2)\)预测\(A_{h,r_1,r_2}\)中的一个元素,而不接受对复合关系\(r_1 \circ r_2\)的训练,也不访问任何中间实体\(m\)。
#### 零样本协议与泄漏控制。
我们从FB15k-237中提取出现频率最高的十个两跳关系链,这些链的链训练支持度≥100(即在\(\mathcal{T}_{\mathrm{tr}}\)中链的两个原子三元组中均出现的不同中间实体\(m\)的数量)。单个关系\(r_1, r_2\)在训练中出现;只有它们的组合被保留。为了消除可学习的捷径,我们丢弃任何测试对\((h,t)\),其中\(t\)可以通过单个训练关系直接从\(h\)到达,丢弃了98对(0.14%),剩下69,855个真正的零样本对(算法1)。在统一的单答案排名假设下,随机准确率为\(1/|\mathcal{E}| \approx 6.77 \times 10^{-5}\);这是我们的参考零假设。由于一些组合答案集有多个有效尾部,某些查询的真实随机率高于\(1/|\mathcal{E}|\),这使得报告的\(p\)值在拒绝\(H_0\)的方向上更为保守(即更不容易拒绝)。所选链涵盖19种不同的关系类型,中间实体扇出从2.4到18.7不等。
**算法1** 泄漏控制零样本评估集构建
1: 训练图 \(G_{\mathrm{tr}}\),测试图 \(G_{\mathrm{te}}\),链数量 \(n\),最小支持度 \(s_{\min}\)
2: **for** 每个有序对 \((r_1, r_2) \in \mathcal{R}^2\) **do**
3: 计算链支持度:
\(\text{sup}(r_1, r_2) \leftarrow |\{m : \exists h,t, (h,r_1,m) \in G_{\mathrm{tr}}, (m,r_2,t) \in G_{\mathrm{tr}}\}|\)
4: **end for**
5: 选择具有最多测试对的\(n\)个链,且满足 \(\text{sup}(r_1,r_2) \geq s_{\min}\)
6: \(\mathcal{S} \leftarrow \emptyset\)
7: **for** 每个选中的链 \((r_1, r_2)\) 及其可到达的测试对 \((h, t)\) **do**
8: **if** \(t \in \mathcal{N}_{\mathrm{tr}}(h)\) **then** ▷ \(t\) 是 \(h\) 的直接训练邻居
9: 丢弃 \((h, t)\)
10: **else**
11: \(\mathcal{S} \leftarrow \mathcal{S} \cup \{(h, r_1, r_2, t)\}\)
12: **end if**
13: **end for**
14: \(\mathcal{S}\) ▷ 69,855 个零样本评估四元组
## 4 方法
### 4.1 全息绑定代数
#### DFT约定。
我们使用酉离散傅里叶变换:\(\hat{a}_k = D^{-1/2} \sum_{j=0}^{D-1} a_j e^{-2\pi i jk / D}\),因此 \(\|\hat{\mathbf{a}}\|_2 = \|\mathbf{a}\|_2\)。
#### 实值HRR。
对于 \(\mathbf{a}, \mathbf{b} \in \mathbb{R}^D\),循环卷积为
\[
(\mathbf{a} \circledast \mathbf{b})_k = \sum_{j=0}^{D-1} a_j b_{(k-j) \bmod D}, \tag{2}
\]
\[
\widehat{\mathbf{a} \circledast \mathbf{b}} = \hat{\mathbf{a}} \odot \hat{\mathbf{b}}, \tag{3}
\]
其中 \(\odot\) 是逐元素乘法。绑定是可交换的,对于从 \(\mathcal{N}(0, D^{-1}\mathbf{I})\) 独立同分布抽取的嵌入,绑定后的向量与操作数具有近似相同的范数。解绑使用近似逆:
\[
\mathbf{a} \approx (\mathbf{a} \circledast \mathbf{b}) \oslash \mathbf{b} = \mathcal{F}^{-1}\!\bigl( \widehat{\mathbf{a} \circledast \mathbf{b}} \odot \overline{\hat{\mathbf{b}}} \bigr). \tag{4}
\]
近似误差随叠加事实的数量\(K\)增长,对于随机嵌入,速率为 \(O(\sqrt{K/D})\)。对于在 \(D=1024\) 实维度中的 \(K=272,115\) 个训练三元组,\(K/D \approx 266\),这是相当大的噪声基底。第6.4节测量了其对组合链所依赖的特定事实的差异化影响。
#### 复数FHRR。
FHRR将每个符号编码为单位模相量 \(\mathbf{z} = e^{i \boldsymbol{\phi}}\),其中 \(\boldsymbol{\phi} \in [-\pi, \pi]^D\)。绑定是逐元素的复数乘法(相位相加);解绑则乘以共轭:
\[
(\mathbf{z}_A \circledast \mathbf{z}_B)_k = z_{A,k} \cdot z_{B,k} = e^{i(\phi_{A,k} + \phi\]相似文章
组合坍缩:稳定的事实知识并不蕴含组合推理
本文介绍了'组合坍缩'这一现象,即语言模型虽然拥有稳定的事实知识,但仍无法将这些知识组合成正确的多跳推理,并提出了一个双门协议,以将组合失败与原子知识不稳定性分离开来。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。
MemDreamer:通过分层图记忆与代理检索机制解耦长视频理解中的感知与推理
MemDreamer 通过分层图记忆和代理检索解耦长视频理解中的感知与推理,在降低计算开销的同时实现了最先进的性能。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。
知识图谱增强的零样本主题分类:多策略比较研究
本文提出了一种零样本多标签主题分类框架,该框架通过每篇文章的知识图谱进行增强,并在十五个大语言模型和八个数据集上比较了四种基础变体及其图增强对应方法。研究发现,关键词增强分类性能最佳,图增强能提升小型模型的表现,但会降低大型模型的性能。