Transformer模型学习中产生的捷径策略损害其持续组合推理能力

arXiv cs.LG 论文

摘要

本研究论文探讨了Transformer模型(特别是BERT)在学习过程中产生的捷径策略如何削弱其持续组合推理能力。研究将BERT与ALBERT进行对比,发现ALBERT的循环特性为持续学习任务提供了更好的归纳偏置。

arXiv:2605.05495v1 公告类型:新论文 摘要:识别并利用不同领域之间的共同特征是人类进行类比推理的核心能力,也被认为是实现持续学习的关键所在。为了成功实现这一目标,必须开发出通用且灵活的计算策略。虽然Transformer神经网络模型执行组合推理的能力一直是近期研究的热点,但针对这些模型在多大程度上能够有效利用其表征来学习新的相关经验,尚缺乏系统性的理解。为了弥补这一空白,我们将先前开发的Learning Equality and Group Operations (LEGO)框架扩展至持续学习(CL)设置(即“持续LEGO”)。利用这一持续LEGO实验范式,我们研究了前馈和循环Transformer模型执行持续学习的能力。研究发现,作为典型的前馈Transformer模型的BERT,会学习产生捷径策略,这限制了其泛化能力,并阻碍了向新经验的强正向迁移。相比之下,我们发现证据支持以下假设:ALBERT作为BERT的循环版本,学习到了一种类似For循环的解决方案,从而带来了更好的持续学习性能。当将BERT和ALBERT模型应用于需要跨经验进行组合的持续学习设置时,我们发现这两种模型家族均未能成功。我们的研究表明,虽然可以通过结合跨经验数据的训练策略来挽救ALBERT模型的性能下降,但这对于BERT模型并不适用,因为有害的捷径策略会在初始训练阶段固化下来。我们的研究结果表明,循环ALBERT模型可能具有更适合持续学习的归纳偏置,并促使人们未来进一步研究Transformer架构与现代模型及任务中涌现的计算解决方案之间的相互作用。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:39

# Transformer 学到的捷径解法损害了持续组合推理能力

来源: https://arxiv.org/html/2605.05495
William T. Redman [email protected] 约翰霍普金斯应用物理实验室 Erik C. Johnson [email protected] 约翰霍普金斯应用物理实验室 Brian Robinson [email protected] 约翰霍普金斯应用物理实验室

###### 摘要

识别并利用不同领域间的共同特征是类比能力的核心,被认为对持续学习能力至关重要。为了成功实现这一目标,必须开发出通用且灵活的计算策略。虽然 Transformer 神经网络模型进行组合推理的能力程度一直是近期密集研究的主题,但关于这些模型如何利用其表征来学习新的、相关的经验,系统性研究尚少。为了弥补这一空白,我们将先前开发的“学习相等性与群运算”(Learning Equality and Group Operations, LEGO)框架扩展到持续学习(Continual Learning, CL)设置中(即“持续 LEGO”)。利用这一持续 LEGO 实验范式,我们研究了前馈和循环 Transformer 模型进行持续学习的能力。我们发现,作为典型前馈 Transformer 模型的 BERT 会学习到捷径解法,这限制了其泛化能力并阻碍了对新经验的强正向迁移。相比之下,我们发现证据支持以下假设:BERT 的循环版本 ALBERT 学到了类似 for-loop 的解法,从而取得了更好的持续学习性能。当将 BERT 和 ALBERT 模型应用于需要在不同经验间进行组合的持续学习设置时,我们发现这两类模型均表现不佳。我们的调查表明,通过结合不同经验数据的训练策略可以挽救 ALBERT 模型的性能下降,但这并不适用于 BERT 模型,因为其在初始训练中已形成根深蒂固的有害捷径解法。我们的结果表明,循环 ALBERT 模型可能具有更适合持续学习的归纳偏置,并促使未来进一步研究 Transformer 架构与现代模型和任务中涌现的计算解法之间的相互作用。

## 1 引言

组合推理的核心(即通过迭代解决并组合更简单的子任务来解决复杂任务)在于识别对象之间的关系。虽然不同类型的经验中具体的对象及其关系可能不同,但潜在的通用结构可以广泛存在。因此,为组合开发通用计算策略不仅能在单个经验中实现良好表现,还能加速新经验的获取。例如,学习迭代遍历对象及其关系(即类似算法 for-loop 的计算)在空间导航(如“在停车标志处左转”、“在红绿灯处右转”……)和解决逻辑问题(如“Alice 有四个西瓜”、“Alice 给 Bob 两个西瓜”……)时同样有用。因此,赋予人工神经网络在持续新经验上进行组合推理的能力,将涉及如何赋予其通用计算策略。

自注意力机制(Bahdanau et al., 2014)通过在长上下文窗口中学习环境特定的输入关系,彻底改变了机器学习领域。对涌现的注意力模式的分析已经识别出可解释且可泛化的计算方式(Zhang et al., 2022; Kantamneni et al., 2024)。例如,对典型前馈 Transformer 模型 BERT(Devlin et al., 2018)及其循环对应物 ALBERT(Lan et al., 2019,层间共享权重)在合成任务“学习相等性与群运算”(LEGO)上学习到的注意力模式进行剖析,揭示了存在执行局部和全局注意力的注意力头(Zhang et al., 2022)。在随机初始化的网络中模仿这些模式可提高性能,强调了所学计算策略的效用,并暗示了改进标准 Transformer 架构的可能途径。

虽然展示了 Transformer 的强大能力,但自注意力机制也被发现支持“捷径”(Liuet al., 2023)(即不可泛化的解法)。事实上,已证明在某些任务的背景下,此类捷径解法总是存在的(Liuet al., 2023),表明它们可能是不可避免的。然而,也有证据表明 Transformer 模型可以学习可泛化的解法,例如 ALBERT 被认为学习到了类似 for-loop 的计算(Zhang et al., 2022)。通用解法与捷径解法之间的这种张力,对 Transformer 模型是否能够以及如何在持续新经验中进行组合学习具有重大影响。然而,Transformer 模型进行持续学习(CL)的基本能力仍是一个很大程度上未被充分研究的方向,尤其是在组合推理的背景下(尽管见 Abdool et al. (2023) 对此方向的一些近期工作)。

为了在简化且受控的环境中开始解决这一重要空白,我们开发了 LEGO 的持续学习扩展版本(“持续 LEGO”),并对 BERT 和 ALBERT 模型的表现进行了深入分析。我们的工作首次深入分析了前馈和循环 Transformer 模型在持续组合推理中的表现。我们的贡献如下:

- •我们将合成组合推理任务 LEGO(Zhang et al., 2022)扩展,以系统地调查 Transformer 模型的持续学习能力。
- •我们发现架构选择(例如注意力头数量、隐藏层数量)对不同影响 BERT 和 ALBERT 模型的泛化准确率和正向迁移强度,其中随着模型规模的增加,BERT 模型在持续学习中表现出不一致的性能。
- •我们分别在 BERT 和 ALBERT 模型中发现了捷径解法和类似 for-loop 的算法解法的证据,为它们在持续 LEGO 任务上不同的表现提供了机制解释。
- •我们证明,在需要跨经验进行组合的持续 LEGO 设置中,这两类模型均表现不佳;我们发现这种失败在 ALBERT 模型中可以通过在逐步结合跨经验数据的训练中得到挽救,但在 BERT 模型中则不行,因为其捷径解法已根深蒂固。

总之,我们的结果表明——在合成持续组合推理任务上——BERT 和 ALBERT 模型学到的捷径解法,虽然有助于在复杂任务上取得成功,但可能会损害其持续学习能力。我们希望我们的工作能导致对这些重要局限性的更深入理解,以及它们在现代 Transformer 架构和任务中存在的程度。

## 2 相关工作

### 2.1 Transformer 的持续学习

持续学习(CL)历史上主要在计算机视觉背景下进行研究(Van de Ven et al., 2022)。因此,毫不奇怪,视觉 Transformer(ViTs)(Dosovitskiy et al., 2020; d’Ascoli et al., 2021)在调查 Transformer 进行持续学习能力方面受到了大部分关注(Yue et al., 2021; Wang et al., 2022; Zheng et al., 2023)。这项工作表明,ViTs 容易遭受灾难性遗忘,在某些情况下甚至比 CNN 更严重(Yue et al., 2021)。这种失败归因于自注意力头中涌现的局部性退化(Zheng et al., 2023),以及对新类别的更大偏见(Yue et al., 2021)。通过架构变更来解决这些局限性可提高持续学习性能(Yue et al., 2021; Wang et al., 2022; Zheng et al., 2023)。对于基于 Transformer 的大型语言模型,Yıldız et al. (2024) 的近期工作基准测试了在不同领域语言语料库上顺序训练不同模型规模时的持续学习表现。我们的工作通过考虑组合推理背景下的持续学习,补充了此前的文献,据我们所知,Transformer 社区对此方向的研究很少(Abdool et al., 2023)。此外,与图像分类、强化学习或语言领域相比,分布偏移难以量化,我们的持续组合推理任务提供了一种结构化方法来研究正向迁移。因此,我们能够比通常在持续学习中研究得更深入地去探索正向迁移和涌现的计算解法。

### 2.2 Transformer 的组合推理

越来越多的工作开始调查 Transformer 进行组合推理的机制(Geiger et al., 2021; Zhang et al., 2022; Allen-Zhu and Li, 2023; Li and McClelland, 2023; Liu et al., 2023; Ramesh et al., 2023; Wang et al., 2024; Khona et al., 2024; Kobayashi et al., 2024)。这些文献通过(例如,通过自注意力头可视化 Kovaleva et al., [2019])探查了在合成数据集上训练时 Transformer 学到的表征。这些实验提供了一个受控环境,其中任务的底层结构完全已知且可操作,从而能够识别局部和全局注意力模式(Zhang et al., 2022),以及浅层 Transformer 学习看似需要循环的问题的捷径的能力(Liu et al., 2023)。此外,这项工作还确定了 Transformer 具有进行组合推理的表达力但未能做到的情况(Kobayashi et al., 2024)。近期工作精确表征了在简化任务和 Transformer 模型中何时出现捷径解法(Kawata et al., 2025)。我们的工作受到这些已确定的组合推理成功与失败的启发,旨在了解它们如何影响 Transformer 在持续学习中的能力。

## 3 任务

研究 Transformer 是否能够以及如何利用重复结构进行持续组合推理,需要一个可以分解为具有相似特征的多个子组件的任务。为了在受控环境中做到这一点,我们转向合成任务“学习相等性与群运算”(LEGO)(Zhang et al., 2022)。合成任务日益被认可为研究 Transformer 涌现特性的基本平台,这些特性可能 underlying 其在大规模复杂数据集上的成功与失败(Geiger et al., 2021; Zhang et al., 2022; Allen-Zhu and Li, 2023; Li and McClelland, 2023; Liu et al., 2023; Ramesh et al., 2023; Wang et al., 2024; Khona et al., 2024)。LEGO 任务本质上是群论的,与 Transformer 所应用的许多应用问题背后的丰富理论框架有联系。近期工作利用群论来理解 Transformer 在各种任务上的性能(Liu et al., 2023)。此外,LEGO 可以看作是有向图遍历,将 LEGO 与知识图谱推理任务的大量文献联系起来(Bordes et al., 2013; Jie et al., 2022)。LEGO 的简化性质也使得能够识别局部和全局注意力模式,这些模式被证明对解决任务非常强大(Zhang et al., 2022)。

### 3.1 学习相等性与群运算(LEGO)

设 $G$ 为一个群,由元素集合 $X=\{x_1,...,x_N\}$ 和运算 $*$ 定义。在许多领域中起重要作用的一个标准群示例是 $k$ 阶对称群 $D_k$。这样一个对称群是 $D_3$,它代表三角形的对称性。这在图 1 A 中示意性地说明。在这种情况下,有 6 个群元素,每个元素对应一个带有标记角度(或等效地,标记边)的三角形配置。每个配置也可以看作是一个动作(例如,从“参考”三角形旋转 $120^\circ$)。

**图 1:LEGO 任务的示意图。** (A) 三角形的一些对称性插图,例如旋转 $120^\circ$ 和沿三个轴之一的反射。这些对称性中的每一个都是 $D_3$ 对称群的一个元素。(B) 当应用于 $D_3$ 的群元素时,LEGO 任务的插图。左侧显示示例输入序列,右侧显示目标输出。(C) 左侧显示 $D_3$ 如何被视为有向图的插图,右侧显示当视为有向图遍历问题时 LEGO 任务的示例。

LEGO 任务考虑一个长度为 $T$ 的符号序列 $\{a_t\}_{t=1}^T$,从符号库中采样,$a_t \in A$,其中 $|A|=M>T$。还采样一个长度为 $T$ 的群元素序列 $\{x_t\}_{t=1}^T$,$x_t \in X$。从 $a_t$ 和 $x_t$ 开始,通过递推关系 $a_1=x_1$ 和 $a_t=a_{t-1}*x_t$(对于 $t=2,...,T$)生成目标序列。我们将每个这些 $a_t=a_{t-1}*x_t$ 单元称为一个“子句”。为了解决 LEGO 任务,必须...

相似文章

Transformer中隐式演绎推理的缩放特性

Hugging Face Daily Papers

本研究探讨了带有双向掩码的深度Transformer如何实现与显式思维链方法相媲美的隐式演绎推理。研究表明,算法对齐的模型能够在多种图拓扑结构和问题宽度上扩展推理能力。

Transformers 本质上是简洁的

Hacker News Top

本文认为 Transformer 架构本质上是简洁的,意味着它们比其他模型能更高效地表示某些函数。本文提供了理论分析和证明。