@GoukiMinegishi: 我们的论文被接收为 #ICML2026 Spotlight! LLM中的推理通过链式局部步骤得到了很大改进。但这是……

X AI KOLs Timeline 论文

摘要

本文使用范畴论形式化了Transformer中的类比推理,引入了合成任务来研究其涌现,并揭示了它源于关系结构的几何对齐和函子应用,同时在预训练的LLM中也发现了类似的特征。该工作被接收为ICML 2026的Spotlight。

我们的论文被接收为 #ICML2026 Spotlight! LLM中的推理通过链式局部步骤得到了很大改进。但这就是全部吗? 人类偶尔会跨领域进行推理性的“跳跃”,这种能力被称为类比。 我们设计了一个合成任务来展示小型Transformer如何获得类比推理能力,并发现预训练的LLM中也出现了相同的特征。 arxiv: https://arxiv.org/abs/2602.01992 code: https://github.com/gouki510/Analogy_in_Transformer…
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:22

我们的论文被 #ICML2026 Spotlight 接收!通过链式局部步骤,LLM 中的推理能力已大幅提升。但这便是全部故事吗?人类偶尔会在不同领域间进行推理性“跳跃”,这种能力被称为类比。我们设计了一个合成任务,用以展示小型 Transformer 如何习得类比推理,并发现相同的特征也出现在预训练的 LLM 中。arxiv: https://arxiv.org/abs/2602.01992 code: https://github.com/gouki510/Analogy_in_Transformer…


Transformer 中的涌现类比推理

来源: https://arxiv.org/html/2602.01992

Jingyuan Feng, Hiroki Furuta, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo

摘要

类比是人类智能的核心能力,使得在一个领域发现的抽象模式可以应用于另一个领域。尽管类比在认知中扮演核心角色,但 Transformer 获取并实现类比推理的机制仍鲜为人知。受范畴论中函子概念的启发,本文将类比推理形式化为跨类别实体间对应关系的推断。基于这一表述,我们引入了在受控设置下评估类比推理涌现的合成任务。我们发现,类比推理的涌现对数据特征、优化选择和模型规模高度敏感。通过机制分析,我们表明 Transformer 中的类比推理可分解为两个关键部分:(1) 嵌入空间中关系结构的几何对齐,以及 (2) Transformer 内部函子的应用。这些机制使模型能够将关系结构从一个类别迁移到另一个类别,从而实现类比。最后,我们量化了这些效应,并发现相同的趋势也出现在预训练的 LLM 中。通过这样做,我们将类比从一个抽象的认知概念转变为现代神经网络中一个具体、基于机制的扎实现象。

可解释性, 类比

1 引言

请参阅图注

图 1:(A) 用于组合推理和类比推理的合成任务。组合推理评估模型是否能组合在训练期间分布内 (ID) 观察到的事实,以推断新颖的组合 (分布外, OOD)。类比推理评估不同类别之间的映射 f (functor) 能否泛化。解决类比推理需要从 ID 事实中捕捉每个类别底层的关系结构。(B) Transformer 的训练动态。在此任务上训练 Transformer 时,模型首先拟合分布内数据,然后获得组合推理能力,最终成功进行类比推理。(C) 类比推理的机制。我们分析了 Transformer 在类比推理涌现前后的内部表征。获得类比推理能力后,模型发展出一个结构良好的嵌入空间,这可通过 Dirichlet 能量的下降进行量化表征。

近年来,大型语言模型 (LLM) 的推理能力取得了显著进展,特别是在最终答案前构建中间推理链方面 (Wei et al., 2022 (https://arxiv.org/html/2602.01992#bib.bib55); Kojima et al., 2022 (https://arxiv.org/html/2602.01992#bib.bib56); OpenAI et al., 2024 (https://arxiv.org/html/2602.01992#bib.bib10); Google DeepMind, 2025 (https://arxiv.org/html/2602.01992#bib.bib11); DeepSeek-AI et al., 2025 (https://arxiv.org/html/2602.01992#bib.bib9))。这些发展重新激发了一个关键问题:LLM 如何实现推理? 当前许多关于理解推理的研究将推理框定为组合推理,即复杂推理源于简单基础操作的顺序组合。例如,给定事实 (i) Alice 是 Bob 的母亲 (a \rightarrow b),(ii) Bob 是 Carol 的父亲 (b \rightarrow c),LLM 可以通过组合两个已知关系推断出 Alice 是 Carol 的祖母 (a \rightarrow c) (Yang et al., 2018 (https://arxiv.org/html/2602.01992#bib.bib67); Mavi et al., 2024 (https://arxiv.org/html/2602.01992#bib.bib68))。这种推理形式的底层机制已被广泛研究,包括其在训练期间的涌现 (He et al., 2024 (https://arxiv.org/html/2602.01992#bib.bib15))、对数据结构的依赖 (Wang et al., 2024 (https://arxiv.org/html/2602.01992#bib.bib16); Schug et al., 2025 (https://arxiv.org/html/2602.01992#bib.bib31)) 及其扩展行为 (Petty et al., 2024 (https://arxiv.org/html/2602.01992#bib.bib32); Redhardt et al., 2025 (https://arxiv.org/html/2602.01992#bib.bib17))。除了组合推理,人类还展示了一种性质不同的推理形式,类比。类比并非通过链式局部步骤得出推论,而是识别跨不同领域的共享关系结构,从而实现某种形式的“跳跃” (Gentner, 1983 (https://arxiv.org/html/2602.01992#bib.bib5); Holyoak and Thagard, 1996 (https://arxiv.org/html/2602.01992#bib.bib72); Bartha, 2013 (https://arxiv.org/html/2602.01992#bib.bib6))。认知科学中的一个经典例子是太阳系与原子结构之间的类比 (Gentner, 1983 (https://arxiv.org/html/2602.01992#bib.bib5)),每个领域都由三个实体及其关系组成:太阳-行星-引力 ::: 质子-电子-库仑力-函子。人们可以推断跨领域实体之间的对应关系,例如将太阳映射到质子。这种推断并非源于实体本身的相似性,而是源于每个领域内实体关系角色的相似性。因此,可以将类比推理视为作用于关系之间的关系,而非个体实体之间的关系。在范畴论中,这可以被形式化为范畴¹¹¹这里,我们使用范畴作为领域的形式抽象,由实体及其关系组成。之间的映射,即函子 (Awodey, 2010 (https://arxiv.org/html/2602.01992#bib.bib18))。这种能力被广泛视为人类智能的核心能力,使得能够从有限经验中高效学习 (Thagard, 1992 (https://arxiv.org/html/2602.01992#bib.bib4); Gentner and Hoyos, 2017 (https://arxiv.org/html/2602.01992#bib.bib8)),并常被视为创造力和科学发现的源泉 (Leatherdale, 1974 (https://arxiv.org/html/2602.01992#bib.bib75); Goel, 1997 (https://arxiv.org/html/2602.01992#bib.bib2); Gentner et al., 1997 (https://arxiv.org/html/2602.01992#bib.bib41))。尽管类比在智能中长期具有重要意义,但 Transformer 架构何时以及如何获得类比推理能力仍不清楚。虽然有几项工作在行为层面探测类比性能 (Chen, 2022 (https://arxiv.org/html/2602.01992#bib.bib25); Ye, 2024 (https://arxiv.org/html/2602.01992#bib.bib26); Yasunaga et al., 2024 (https://arxiv.org/html/2602.01992#bib.bib39); Johnson et al., 2025 (https://arxiv.org/html/2602.01992#bib.bib40)),但我们缺乏系统性的理解。在这项工作中,我们朝填补这一空白迈出了一步。受范畴论中函子概念的启发,我们将类比推理形式化为跨类别对应关系的推断。基于这一表述,我们设计了合成任务,在统一框架内评估组合推理类比推理 (图 1 (https://arxiv.org/html/2602.01992#S1.F1)-(A))。我们的任务基于分布内 (ID) 训练数据中提供的原子事实,其中每个事实指定一对实体 ((e_s, e_t)) 之间的关系标签 (r_{s \rightarrow t})。在组合推理中,我们测试模型是否能组合学到的原子事实来推断新颖的组合 (分布外, OOD)。在类比推理中,我们考虑两个类别共享相同的关系结构但实体不同。模型需要根据实体的关系角色推断跨类别的对应实体。由于类比推理的评估也在 OOD 中进行,模型必须从 ID 事实中捕捉每个类别底层的关系结构。

使用这个合成任务,我们分析了何时组合推理和类比推理在训练期间出现。我们观察到清晰的三阶段学习动态 (图 1 (https://arxiv.org/html/2602.01992#S1.F1)-(B)):模型首先拟合分布内事实,然后获得组合推理能力,随后发展出类比推理能力。我们发现,与组合推理不同的是,类比推理的涌现对数据特征和优化设置 (例如权重衰减) 高度敏感,并且不会随模型规模单调提升。这表明类比推理依赖于与组合推理性质不同的机制,并且这些机制不能仅通过权重范数正则化或增加模型容量来解释。

受这些发现的启发,我们进一步研究如何在 Transformer 中以机制方式实现类比推理。我们表明,类比推理可以分解为两个部分:(1) 嵌入空间中的结构对齐和 (2) Transformer 层中的函子应用。在合成任务中,类比推理在跨类别实体的嵌入变得几何对齐后出现 (图 1 (https://arxiv.org/html/2602.01992#S1.F1-(C)),这可以通过训练期间 Dirichlet 能量的大幅下降来衡量。这种对齐随后被 Transformer 利用,将源实体 (e_s) 变换为其类比对应实体 (e_t),其中函子 (f) 作为向量加法 (e_t \approx e_s + f) 应用。此外,我们使用上下文学习探测预训练的 LLM,并观察到类似的特征。虽然在合成任务中,Dirichlet 能量的下降发生在训练步轴方向上,但在 LLM 中,相同的现象沿着层轴展开。这些结果表明,在合成任务中发现的类比推理机制也出现在预训练的 LLM 中。

与近期强调链式局部思考步骤的推理方法不同,类比推理能够实现跨领域的概念跳跃。因此,它为超越顺序组合的独特推理范式提供了基础。我们希望我们的工作为研究 Transformer 中的类比奠定基础。

本文组织如下。在第 2 节 (https://arxiv.org/html/2602.01992#S2) 中,我们提出了一个旨在评估组合推理和类比推理的合成任务。在第 3 节 (https://arxiv.org/html/2602.01992#S3) 中,我们详细分析了 Transformer 在此任务上的训练动态。在第 4 节 (https://arxiv.org/html/2602.01992#S4) 中,我们展示了 Transformer 中类比推理的机制实现,并在第 5 节 (https://arxiv.org/html/2602.01992#S5) 中进一步证明类似的机制特征也出现在预训练的 LLM 中。

2 类比推理的合成任务

我们提出了一个合成任务来评估组合推理和类比推理。该任务定义在实体和关系之上,由三种类型的事实组成:原子事实、组合事实和类比事实。

2.1 问题形式化

实体与关系

令 (\mathcal{E}) 表示一个有限的实体集合,(\mathcal{R}) 表示一个有限的关系集合。我们将实体集划分为两个不相交的子集 (\mathcal{E}_1, \mathcal{E}_2),²²²(\mathcal{E} = \mathcal{E}_1 \cup \mathcal{E}_2, \mathcal{E}_1 \cap \mathcal{E}_2 = \varnothing, |\mathcal{E}_1| = |\mathcal{E}_2|),对应于图 1 (https://arxiv.org/html/2602.01992#S1.F1) 中的两个类别。在 (\mathcal{E}_1) 上,我们构建一个有标号边的有向完全图。形式化地,对于每个有序对 ((e_i, e_j) \in \mathcal{E}_1 \times \mathcal{E}_1) 且 (e_i \neq e_j),我们分配一个关系标签 (r(e_i, e_j) \in \mathcal{R}),从 (\mathcal{R}) 中均匀随机采样,约束条件是每个实体 (e_i \in \mathcal{E}_1) 在其出边上具有不同的关系标签。³³³如果一个实体在出边上具有相同的关系且被用作组合事实的中间节点,则组合推理变得不可能。

原子事实

原子事实表示 (\mathcal{E}1) 上关系图中的一条有标号边,由三元组 ((e_s, r(e_s, e_t), e_t) \in \mathcal{D}{\text{atomic}}) 给出。我们记 (\mathcal{D}_{\text{atomic}}) 为原子事实的集合。原子事实构成了训练期间的基础关系知识。

组合事实

从原子事实中,我们推导出对应于两跳关系组合的组合事实。组合事实定义为四元组 ((e_s, r(e_s, e_i), r(e_i, e_t), e_t) \in \mathcal{D}{\text{comp}}),由以下两个共享中间实体 (e_i) 的原子事实组合得到:((e_s, r(e_s, e_i), e_i)) 和 ((e_i, r(e_i, e_t), e_t))。我们记 (\mathcal{D}{\text{comp}}) 为组合事实的集合。

类比事实

为了形式化跨类别类比,我们考虑一个双射 (\mathcal{F}: \mathcal{E}_1 \rightarrow \mathcal{E}_2),该双射在两个类别的实体之间建立一一对应关系。我们通过定义 (r(\mathcal{F}(e_s), \mathcal{F}(e_t)) = r(e_s, e_t), \forall e_s \neq e_t \in \mathcal{E}_1) 将关系结构从 (\mathcal{E}_1) 转移到 (\mathcal{E}_2)。因此,(\mathcal{E}_1) 和 (\mathcal{E}2) 共享相同的关系结构。从范畴论的角度 (Awodey, 2010 (https://arxiv.org/html/2602.01992#bib.bib18)),该映射 (\mathcal{F}) 可以被视为一个函子类比事实将这种跨类别对齐表述为三元组 ((e_s, f, \mathcal{F}(e_s)) \in \mathcal{D}{\text{analogical}}),其中 (e_s \in \mathcal{E}_1) 且 (\mathcal{F}(e_s) \in \mathcal{E}2),且由于两个集合不相交,(e_s \neq \mathcal{F}(e_s))。我们记 (\mathcal{D}{\text{analogical}}) 为类比事实的集合。这里,(f) 被视为一个特殊符号。

组合推理与类比推理

我们现在定义任务中评估的两种泛化类型:组合推理和类比推理。虽然两者都需要外推到训练数据之外,但它们依赖于性质不同的能力。

定义 2.1 (组合推理)

令 (\mathcal{D}{\text{comp}}^{\text{OOD}}) 为组合事实的留出集,使得其中包含组成原子事实,但组合四元组本身并未出现。如果模型能够根据前面的实体和两个关系标记正确预测 (\mathcal{D}{\text{comp}}^{\text{OOD}}) 中样本的最终实体,则称该模型表现出组合推理

相似文章

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。