关系泛化与记忆平衡的数学理论

arXiv cs.LG 论文

摘要

本文介绍了一项新任务——含例外的传递推理,并通过分析刻画了神经网络模型(核岭回归)如何平衡关系泛化与记忆。该理论在预训练语言模型中得到验证,显示了理论预见的系统性错误。

arXiv:2605.22972v1 公告类型:新 摘要:人类、动物以及现代机器学习模型展现出了学习复杂行为并将这些行为泛化到未见情境的惊人能力。这种能力要求我们学习规则和规律性以实现此类泛化。与此同时,在大多数复杂环境中,任何规则都会有例外。学习系统如何在学习一般规律与记忆例外之间取得平衡?我们认为,任务范式的缺乏阻碍了对这一基本能力的研究。为填补这一空白,我们引入了一项新任务——含例外的传递推理,该任务测试了关系泛化以及对关系规则例外的记忆。接着,我们分析性地刻画了一个简单、理论上易处理的神经网络学习模型(核岭回归)在广泛表征和任务参数族中的行为。我们发现这些模型能够在关系泛化和记忆之间取得平衡,但与无例外的传递推理不同,成功的泛化对特定的表征几何结构敏感。我们借助分析理论解释了为什么这一任务在机制上更具挑战性。最后,我们在经过有序关系微调的预训练语言模型中验证了我们的理论见解,发现这些模型成功按照传递规则进行泛化,但同时也出现了我们的理论所预见的系统性错误。总体而言,我们的理论展示了学习系统如何平衡关系泛化与记忆,解释了这种平衡如何出错,并强调了设计新任务范式以探究这一能力的必要性。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:57

# 平衡关系泛化与记忆的数学理论 来源:https://arxiv.org/html/2605.22972 Luke Cheng 理论神经科学中心 哥伦比亚大学 纽约,NY,10027 lc3616@columbia\.edu & Samuel Lippl 理论神经科学中心 哥伦比亚大学 纽约,NY,10027 samuel\.lippl@columbia\.edu ###### 摘要 人类、动物以及现代机器学习模型都展现出惊人的能力,能够学习复杂行为并将这些行为泛化到未见情境中。这种能力需要我们学习规则和规律性,以便进行此类泛化。同时,在大多数复杂环境中,任何规则都会有例外。学习系统如何在学习一般规律和记忆例外之间取得平衡?我们认为,缺乏任务范式阻碍了对这一基本能力的研究。为填补这一空白,我们引入了一个新任务——带有例外的传递性推理,该任务测试对关系规则的关系泛化和例外记忆能力。接着,我们在一系列广泛的表征和任务参数上,解析性地刻画了一个简单的、理论上可处理的神经网络学习模型(核岭回归)的行为。我们发现这些模型能够在关系泛化和记忆之间取得平衡,但与没有例外的传递性推理不同,成功的泛化对特定的表征几何结构很敏感。我们利用解析理论从机制上解释了为什么这个任务更具挑战性。最后,我们在经过有序关系微调的预训练语言模型中验证了我们的理论洞见,发现这些模型成功根据传递性规则进行了泛化,但也犯了我们的理论所预测的那类系统性错误。总体而言,我们的理论展示了学习系统如何平衡关系泛化与记忆,解释了这种方式可能出错的原因,并强调了需要设计新的任务范式来探测这种能力。 ## 1 引言 当从有限数据中学习执行复杂行为时,人类、动物和机器学习模型必须推断其环境的规则和规律[61 (https://arxiv.org/html/2605.22972#bib.bib109),70 (https://arxiv.org/html/2605.22972#bib.bib1)](图1 (https://arxiv.org/html/2605.22972#S1.F1)A)。这使他们能够将经验泛化到涉及熟悉组件的未见情境,这种能力也称为组合泛化[39 (https://arxiv.org/html/2605.22972#bib.bib9),49 (https://arxiv.org/html/2605.22972#bib.bib6),63 (https://arxiv.org/html/2605.22972#bib.bib7)]。例如,学习一门新语言时,我们可能会注意到发音相似的词(在相关语言中)通常意思相同;这可以帮助我们更快地学习新单词。理解某些环境共享一个固定的动作序列(例如在机场,我们通常先托运行李,然后过安检)能让我们更好地规划未来[8 (https://arxiv.org/html/2605.22972#bib.bib47)]。而在学习国际象棋时,理解皇后通常比马更有价值,能帮助我们避免代价高昂的错误。然而,在大多数复杂环境中,这些规则都会有例外(图1 (https://arxiv.org/html/2605.22972#S1.F1)B)。例如,德语中的"Gift"意思是毒药,而不是礼物;有时我们必须在登机口托运行李,而不是在安检前;在某些情况下,牺牲皇后可以赢得比赛。有效的行为要求除了学习常规结构外,还要学习这些例外(图1 (https://arxiv.org/html/2605.22972#S1.F1)C)。因此,任何部署在现实世界中的学习系统都必须平衡学习一般规则与记忆这些规则的例外。

虽然已有广泛的理论和实证文献分别研究了组合泛化和记忆,但学习系统如何同时做到这两点仍不清楚([[], 但也见]rumelhart1985learning)。部分问题在于缺乏合适的任务范式:虽然现实世界的任务需要规则学习和记忆之间的平衡,但适合理论研究的简单任务通常可以通过规则解决,无需考虑任何例外。在此,我们填补了这一空白,将关系泛化视为组合泛化的一个重要实例[45 (https://arxiv.org/html/2605.22972#bib.bib11),13 (https://arxiv.org/html/2605.22972#bib.bib5)]。传递性是关系规则的一个典型实例:如果 A > B 且 B > C,则意味着 A > C。相应地,测试传递性泛化能力("传递性推理",TI,图1 (https://arxiv.org/html/2605.22972#S1.F1)D)一直是研究人类[90 (https://arxiv.org/html/2605.22972#bib.bib13),19 (https://arxiv.org/html/2605.22972#bib.bib12),27 (https://arxiv.org/html/2605.22972#bib.bib14),88 (https://arxiv.org/html/2605.22972#bib.bib15)]、动物[83 (https://arxiv.org/html/2605.22972#bib.bib16),30 (https://arxiv.org/html/2605.22972#bib.bib17),43 (https://arxiv.org/html/2605.22972#bib.bib19),99 (https://arxiv.org/html/2605.22972#bib.bib18)]以及(越来越多的)神经网络[32 (https://arxiv.org/html/2605.22972#bib.bib20),33 (https://arxiv.org/html/2605.22972#bib.bib22),60 (https://arxiv.org/html/2605.22972#bib.bib21),75 (https://arxiv.org/html/2605.22972#bib.bib2),40 (https://arxiv.org/html/2605.22972#bib.bib23),78 (https://arxiv.org/html/2605.22972#bib.bib24)]关系推理的重要任务范式。相反,人类和动物(以及神经网络)也可以记忆非传递性关系(例如剪刀石头布结构,"横向模式",TP,图1 (https://arxiv.org/html/2605.22972#S1.F1)E)[3 (https://arxiv.org/html/2605.22972#bib.bib25),6 (https://arxiv.org/html/2605.22972#bib.bib26),35 (https://arxiv.org/html/2605.22972#bib.bib27)]。

参见标题图1:现实世界中的复杂行为需要一般规则学习和记忆例外的混合。A,识别一般规律使我们能够泛化到未见情境。B,大多数规律都有例外。(此处显示的棋盘描绘了Legal's Mate的例子,这是一个玩家应该牺牲皇后的标准示例,重印自[24 (https://arxiv.org/html/2605.22972#bib.bib120)]。)C,现实世界中的最优行为需要学习这些一般规律,同时也要记忆例外。D-F,探测上述能力的认知任务范式。D,传递性推理要求模型或主体利用传递性规则进行泛化。E,横向模式测试主体或模型能否学习非传递性关系。F,我们引入了一个新任务:带有例外的传递性推理。该任务要求主体或模型既根据传递性规则进行泛化,又记忆传递性规则的例外。

虽然传递性推理和横向模式已被分别广泛研究,但学习系统在大多数传递性但包含非传递性例外的有序关系上的表现仍不清楚——我们认为这种场景在复杂决策任务中很常见(见第3.1节 (https://arxiv.org/html/2605.22972#S3.SS1))。为了研究这一点,我们做出了三个主要贡献:

1. 1.我们引入了一个新的任务范式:带有例外的传递性推理(图1 (https://arxiv.org/html/2605.22972#S1.F1)F)。该任务旨在受控环境中探测关系泛化和记忆。
2. 2.我们解析性地刻画了神经网络学习(核岭回归)在一个一般表征族和任务参数上的理论模型。我们发现核模型可以成功泛化,但这对其表征几何结构很敏感。然后我们利用解析理论从机制上理解这些模型如何成功或失败地泛化。
3. 3.最后,我们在经过关系任务微调的预训练语言模型中验证了我们的洞见。

总体而言,我们的研究结果展示了简单的学习系统如何平衡组合泛化和记忆。同时,它们强调了需要这种平衡的组合任务比仅需学习规律的任务要困难得多。因此,这些任务突出了新的失败模式,并对哪些系统能够成功施加了更强的约束。我们建议,处理例外出是野外学习系统面临的基本挑战,未来的工作应更加强调构建可解析处理的任务范式,以捕捉这种复杂性。

## 2 相关工作

组合泛化长期以来一直是机器学习系统的重要评估标准[39 (https://arxiv.org/html/2605.22972#bib.bib9),70 (https://arxiv.org/html/2605.22972#bib.bib1),49 (https://arxiv.org/html/2605.22972#bib.bib6),68 (https://arxiv.org/html/2605.22972#bib.bib103),57 (https://arxiv.org/html/2605.22972#bib.bib104),36 (https://arxiv.org/html/2605.22972#bib.bib106),73 (https://arxiv.org/html/2605.22972#bib.bib105)]。随着现代学习系统能力的增强,它变得越来越核心。虽然对神经网络中组合操作的显式约束可以保证组合泛化[95 (https://arxiv.org/html/2605.22972#bib.bib53),110 (https://arxiv.org/html/2605.22972#bib.bib50),109 (https://arxiv.org/html/2605.22972#bib.bib49),18 (https://arxiv.org/html/2605.22972#bib.bib51),51 (https://arxiv.org/html/2605.22972#bib.bib48)],但我们的工作强调,在显式约束不起作用的情况下,神经网络通常需要进行组合泛化。

关系泛化作为组合泛化的一个特殊实例,侧重于通过学习不同对象或项目彼此之间的关系来泛化到未见情境[45 (https://arxiv.org/html/2605.22972#bib.bib11),13 (https://arxiv.org/html/2605.22972#bib.bib5),108 (https://arxiv.org/html/2605.22972#bib.bib107),107 (https://arxiv.org/html/2605.22972#bib.bib108)]。传递性推理(TI;图1 (https://arxiv.org/html/2605.22972#S1.F1)D)是通过测试主体能否利用传递性规则进行泛化来评估人类、动物和神经网络这种能力的经典任务范式[105 (https://arxiv.org/html/2605.22972#bib.bib77),54 (https://arxiv.org/html/2605.22972#bib.bib76),40 (https://arxiv.org/html/2605.22972#bib.bib23),78 (https://arxiv.org/html/2605.22972#bib.bib24)]。相比之下,横向模式(TP;剪刀石头布结构;图1 (https://arxiv.org/html/2605.22972#S1.F1)E)测试主体是否能记忆完全非传递性的关系。在现实世界中,许多有序关系可能大部分是传递性的,但也涉及一些违反传递性的例外,这一现象已在多种情境中观察到,包括物种间的竞争、投票系统和博弈论[103 (https://arxiv.org/html/2605.22972#bib.bib38),9 (https://arxiv.org/html/2605.22972#bib.bib37),97 (https://arxiv.org/html/2605.22972#bib.bib35),65 (https://arxiv.org/html/2605.22972#bib.bib31),28 (https://arxiv.org/html/2605.22972#bib.bib40),5 (https://arxiv.org/html/2605.22972#bib.bib39),7 (https://arxiv.org/html/2605.22972#bib.bib110),10 (https://arxiv.org/html/2605.22972#bib.bib45)]。

我们的工作建立在利用核模型理解神经网络泛化的长期文献基础上[50 (https://arxiv.org/html/2605.22972#bib.bib60),26 (https://arxiv.org/html/2605.22972#bib.bib61),21 (https://arxiv.org/html/2605.22972#bib.bib63),22 (https://arxiv.org/html/2605.22972#bib.bib62),81 (https://arxiv.org/html/2605.22972#bib.bib44),116 (https://arxiv.org/html/2605.22972#bib.bib70),59 (https://arxiv.org/html/2605.22972#bib.bib69),1 (https://arxiv.org/html/2605.22972#bib.bib3),77 (https://arxiv.org/html/2605.22972#bib.bib64)]。先前的工作已经表明,这种视角可以帮助我们理解预训练语言模型中的微调[80 (https://arxiv.org/html/2605.22972#bib.bib67),2 (https://arxiv.org/html/2605.22972#bib.bib68)]——这与我们在此的发现一致。我们请读者参考附录A (https://arxiv.org/html/2605.22972#A1)中关于这些相关工作的更详细讨论。

## 3 设置

### 3.1 任务设置

为了研究关系推理,我们考虑一组项目 \(I_1, \dotsc, I_n\)。为了训练模型学习一个关系,我们呈现项目对 \((I_j, I_k)\) 及其相关标签 \(y_{j,k} \in \{-1,1\}\)。如果 \(y_{j,k}=1\),表示 \(I_j > I_k\);如果 \(y_{j,k}=-1\),表示 \(I_j < I_k\)。传递性推理测试主体是否能够推断出一个潜在的排序 \(I_1 > \dotsb > I_n\)。模型在相邻对 \(I_j > I_{j+1}\) 上进行训练,随后在 \(|j-k|\geq 2\) 的 \((I_j, I_k)\) 上测试其性能。这测试了模型是否能够利用传递性规则泛化到项目的新组合。

横向模式通过添加前提 \(I_n > I_1\) 来阻止模型推断一致的排序系统,从而建立一个非传递性的循环关系。我们的新任务——带有例外的传递性推理,引入了一个任意的例外 \(I_p > I_q\),其中 \(p > q\)(且 \(|p-q| > 1\))。这意味着该任务由两个有序部分(\(\mathcal{O}^{(1)} := \{I_1, \dotsc, I_{q-1}\}\), \(\mathcal{O}^{(2)} := \{I_{p+1}, \dotsc, I_n\}\))和一个中间的非传递性部分(\(\mathcal{L} := \{I_q, \dotsc, I_p\}\))组成(图1 (https://arxiv.org/html/2605.22972#S1.F1)f)。我们在四个数据集上评估模型预测(图2 (https://arxiv.org/html/2605.22972#S3.F2)):

参见标题图2:带有例外的传递性推理。展示了相关训练集、测试集以及关联的关系。白色方块表示没有预期泛化的项目对。

1. 1.传递性对的记忆:模型是否学习了训练对,其中至少有一个项目在 \(\mathcal{O}^{(i)}\) 中?
2. 2.非传递性对的记忆:模型是否学习了训练对,其中两个项目都在 \(\mathcal{L}\) 中?
3. 3.节内泛化:模型能否在 \(\mathcal{O}^{(1)}\) 或 \(\mathcal{O}^{(2)}\) 内进行传递性泛化,即对 \(\{(I_j, I_k) | I_j, I_k \in \mathcal{O}^{(i)}; i=1,2\}\)?
4. 4.跨节泛化:模型能否在各个节之间进行传递性泛化,即对 \(\{(I_j, I_k) | (I_j \in \mathcal{O}^{(1)} \wedge I_k \in \mathcal{O}^{(2)}) \vee (I_j \in \mathcal{O}^{(2)} \wedge I_k \in \mathcal{O}^{(1)})\}\)?

例如,如果主体学习了 \(A > B > C\), \(E > F > G\) 和 \(C > D > E > C\),那么期望的跨节泛化示例是 \(B > F\)。这种泛化方式允许例外创建一个局部的非传递性循环,而不会破坏一般的传递性规则。我们建议,这种启发式方法在大多数情况下将产生成功的关系泛化。为了将我们建议的启发式方法落实到具体且数学精确的例子上,我们考虑德州扑克中不同手牌的一对一胜率作为关系实例。

相似文章

Transformer 中的几何事实记忆

Hugging Face Daily Papers

本文介绍了 Transformer 中几何事实记忆的理论框架,证明了嵌入可以通过线性叠加来编码关系结构,而 MLP 则充当选择器。文章提供了理论和实证证据,表明这种机制能够高效地记忆事实和进行多跳查询。

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。

追踪大语言模型中的关系知识回忆

arXiv cs.CL

研究者通过探测每个注意力头的贡献,追踪大语言模型如何回忆关系事实,发现这些贡献是强线性特征,其保真度与关系特异性及实体连接度相关。

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。