并行流形引导：通过残差能量塑形实现大型关联记忆的高效适应

arXiv cs.LG 2026/06/24 04:00 论文

摘要

本文提出H-Res，一种通过塑形关联记忆的能量景观来适应大型Transformer模型的方法，无需修改权重或添加提示，保留了记忆容量，且性能优于LoRA。

arXiv:2606.24396v1 公告类型：新摘要：大型Transformer模型作为密集关联记忆（DAM），通过自注意力机制驱动的高维吸引子动力学来检索知识 \citep{ramsauer2020hopfield, wu2024attention}。然而，将这些冻结的记忆系统适应新任务面临着根本性的“可塑性-稳定性”困境。当前的方法要么通过直接修改突触权重（如LoRA）冒着灾难性干扰的风险 \citep{hu2021lora}，要么通过用静态提示标记堵塞检索缓冲区（如VPT）来降低关联容量 \citep{jia2022vpt}。在本工作中，我们提出\textbf{H-Res}（层次化残差引导），一种在不改变全局平衡或扩展序列长度的情况下调节Transformer有效能量景观的机制。通过将适应形式化为激活流形上的控制问题 \citep{chen2018neuralode}，H-Res学习一个状态依赖的向量场，将令牌轨迹引导至任务特定的吸引域。我们形式化地证明H-Res保持了基础模型的注意力熵，并促进了神经坍缩 \citep{papyan2020prevalence}。实证上，流形引导在关联检索任务上比全局权重修改高出26\%，并消除了基于提示方法的计算开销，有效扩展到结构化域 \citep{zha2023vtab}。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:50

# 并行流形操控：通过残差能量整形实现大型关联记忆的高效适配

来源: https://arxiv.org/html/2606.24396

###### 摘要

大型 Transformer 模型作为密集关联记忆（Dense Associative Memories, DAMs）运作，通过自注意力机制驱动的高维吸引子动力学来检索知识 (Ramsauer et al., 2020 (https://arxiv.org/html/2606.24396#bib.bib1); wu2024attention)。然而，将这些冻结的记忆系统适配到新任务时，会遇到根本性的“可塑性-稳定性”困境。当前方法要么通过直接修改突触权重（例如 LoRA）(Hu et al., 2021 (https://arxiv.org/html/2606.24396#bib.bib2)) 存在灾难性干扰的风险，要么通过用静态提示标记阻塞检索缓冲区（例如 VPT）(Jia et al., 2022 (https://arxiv.org/html/2606.24396#bib.bib3)) 来降低关联容量。在这项工作中，我们提出了 H-Res（Hierarchical Residual Steering，分层残差操控），这是一种在不改变 Transformer 全局均衡或扩展其序列长度的情况下，调制其有效能量景观的机制。通过将适配表述为激活流形上的控制问题 (Chen et al., 2018 (https://arxiv.org/html/2606.24396#bib.bib16))，H-Res 学习一个状态依赖的向量场，将标记轨迹引导至任务特定的吸引子盆。我们形式化地证明 H-Res 保留了基础模型的注意力熵，并促进了神经坍缩 (Neural Collapse) (Papyan et al., 2020 (https://arxiv.org/html/2606.24396#bib.bib7))。实验上，流形操控在关联检索任务上比全局权重修改性能提升 26%，并消除了基于提示方法的计算开销，有效扩展到结构化领域 (Zhai et al., 2019 (https://arxiv.org/html/2606.24396#bib.bib11))。

## 1 引言

现代深度学习与经典神经科学的融合揭示了一个统一的视角：大规模 Transformer 不仅仅是前馈函数逼近器，更是受能量最小化原理支配的关联记忆网络 (Associative Memory Networks) (Krotov and Hopfield, 2016 (https://arxiv.org/html/2606.24396#bib.bib4); Han and others, 2023 (https://arxiv.org/html/2606.24396#bib.bib29))。在此框架下，大型语言模型（LLM）或视觉 Transformer（ViT）(Dosovitskiy et al., 2021 (https://arxiv.org/html/2606.24396#bib.bib5); Radford et al., 2019 (https://arxiv.org/html/2606.24396#bib.bib10)) 的预训练权重定义了一个复杂的高维能量景观 E(x)，其中“正确”输出对应深局部极小值（吸引子）。

适配（Adaptation）——将通用记忆微调至特定下游任务的挑战——本质上是重塑这一能量景观的问题。理想的适配机制应为输入查询创建一个新的、任务特定的吸引子盆，同时不破坏预训练记忆的全局结构（灾难性遗忘），也不降低记忆检索的可用带宽。

参见子标题说明

(a) 能量景观上的流形操控
参见子标题说明

(b) 向量场：LoRA（混沌）vs H-Res（收敛）

图 1: 适配的几何结构。 (a) 标准训练可能将模型困在预训练的局部极小值（红色）中，而 H-Res 引入残余力场，将潜状态跨越能量屏障引导至任务最优的全局极小值（青色）。 (b) 比较梯度场：LoRA 的全局权重偏移导致混沌更新（左），而 H-Res 学习一个平滑、收敛的向量场，将状态引导至吸引子（右）。

### 1.1 关联系统中的适配困境

从动力系统的角度来看，当前适配这些大规模记忆系统的方法存在明显的理论缺陷：

- • 全局变形（突触修改）：低秩适配（LoRA）(Hu et al., 2021 (https://arxiv.org/html/2606.24396#bib.bib2); Dettmers et al., 2024 (https://arxiv.org/html/2606.24396#bib.bib25)) 等方法直接修改突触权重 W（W′ = W + ΔW）。虽然效率高 (Aghajanyan et al., 2021 (https://arxiv.org/html/2606.24396#bib.bib26))，但这相当于对能量景观进行全局变形。即使是低秩更新也会改变网络中存储的所有记忆的平衡。这引入了干扰（Interference），新任务的梯度会扭曲预训练知识的检索动力学 (McCloskey and Cohen, 1989 (https://arxiv.org/html/2606.24396#bib.bib12); Ratcliff, 1990 (https://arxiv.org/html/2606.24396#bib.bib13))。
- • 缓冲区拥塞（上下文扩展）：Visual Prompt Tuning (VPT) (Jia et al., 2022 (https://arxiv.org/html/2606.24396#bib.bib3)) 和 Prefix Tuning (Li and Liang, 2021 (https://arxiv.org/html/2606.24396#bib.bib8)) 试图通过向输入序列注入可学习的“上下文向量”（提示）来操控模型。在关联记忆术语中，这相当于拥塞检索缓冲区。通过在长度为 N 的序列后附加 p 个提示标记，这些方法将检索复杂度从 O(N²) 增加到 O((N+p)²)，并稀释了注意力机制的概率质量 (Vaswani et al., 2017 (https://arxiv.org/html/2606.24396#bib.bib6))，从而削弱了真实关联回忆的信噪比。

## 2 方法

我们提出 H-Res（Hierarchical Residual Steering），该方法摒弃了全局权重修改和上下文扩展。相反，H-Res 通过在网络的状态演化中直接注入残差控制信号来运作，其灵感来源于残差适配器 (Rebuffi et al., 2017 (https://arxiv.org/html/2606.24396#bib.bib28); Houlsby et al., 2019 (https://arxiv.org/html/2606.24396#bib.bib9)) 和神经 ODE (Chen et al., 2018 (https://arxiv.org/html/2606.24396#bib.bib16))。

### 2.1 流形操控：向量场

令 z_l ∈ ℝ^(N×d) 为第 l 层的潜状态。如果将 Transformer 层视为一个将状态 z_l 更新为 z_(l+1) 的离散动力系统，H-Res 引入一个并行控制项 H(z_l)：

z_(l+1) = Attn(z_l) + FFN(z_l) + λ · H_θ(z_l)  (1)

这里，H_θ(z_l) 在激活流形上充当一个可学习的向量场。它被参数化为一个瓶颈多层感知机（MLP），使用 GeLU 激活函数 (Hendrycks and Gimpel, 2016 (https://arxiv.org/html/2606.24396#bib.bib21)) 来对控制信号施加低秩约束：

H_θ(x) = W_up · σ(W_down · x)  (2)

其中 W_down ∈ ℝ^(r×d) 将高维状态投影到一个低维的“控制流形”上，W_up ∈ ℝ^(d×r) 将修正投影回去。r ≪ d 是瓶颈秩（通常 r=32）。由于 H 是加性且状态依赖的 (Zhang et al., 2020 (https://arxiv.org/html/2606.24396#bib.bib23))，它仅在输入状态进入任务的感受野时才引导轨迹。注意，虽然我们称此为“流形操控”，但它作为一个并行的残差适配器，在架构上与冻结的骨干网络正交（分离），避免了对预训练权重的直接干扰。

### 2.2 能量最小化动力学

根据 Ramsauer 等人 (2020 (https://arxiv.org/html/2606.24396#bib.bib1)) 的研究，自注意力机制的更新规则可视为通过凹凸过程最小化能量函数 E(ξ)。标准更新为：

ξ^(new) = softmax(β W_Q W_K^T) W_V  (3)

这对应于最小化 Hopfield 能量的拉格朗日量。H-Res 通过添加一个残差梯度项 H(ξ) 来修改此动态，该梯度项在不改变全局能量函数的情况下，有效重塑了局部优化景观：

ξ^(final) = ξ^(new) + ∇_ξ E_task(ξ)  (4)

其中 H ≈ -∇E_task。

### 2.3 零初始化：保持能量极小值

提示调整策略的一个关键缺陷是初始化冲击（Initialization Shock）。随机初始化的提示会在 t=0 时扭曲注意力概率分布。为解决此问题，我们明确将上投影矩阵 W_up 初始化为零。

W_up ← 0  ⇒  H_(θ_init)(z) = 0  (5)

这确保了在初始化时，控制信号为零，有效更新规则恰好是预训练模型。这一特性保证了 H-Res 从预训练能量景观的全局最小值开始优化，从而实现平滑的轨迹优化 (Lian et al., 2022 (https://arxiv.org/html/2606.24396#bib.bib24))。

### 2.4 理论证明：注意力熵与保真度

我们形式化证明 H-Res 保留了基础模型的关联带宽（Associative Bandwidth）。

引理 1 (VPT 熵扩展)：在 VPT 框架中，序列长度增加到 N+p。新的注意力分布 A'_cls 定义在 N+p 个元素上。由于学习到的提示 P 针对显著性进行了优化，它们从视觉补丁 X 吸引概率质量，从而增加香农熵并模糊检索 (Bahri et al., 2020 (https://arxiv.org/html/2606.24396#bib.bib19))。

引理 2 (H-Res 保真度保持)：H-Res 在恒定的序列长度 N 上运作。由于适配器与自注意力块并行应用 (He et al., 2016 (https://arxiv.org/html/2606.24396#bib.bib18))，注意力权重不受合成标记的影响。熵 H(A_cls) 保持最小，从而保留了基础模型的“空间眼睛”。

### 2.5 通过零空间投影实现多任务正交性

为确保任务 B 的专家不会干扰任务 A 的流形，我们实现了零空间投影（Null-Space Projection, NSP）。令 Σ_prev 为所有先前任务的隐藏特征的协方差矩阵。我们将新任务的梯度投影到 Σ_prev 的零空间中：

∇θ_new ← (I - Σ_prev (Σ_prev^T Σ_prev)^(-1) Σ_prev^T) ∇θ_new  (6)

这确保了对先前任务的特征空间而言，残差“微调”在数学上是不可见的 (Power et al., 2022 (https://arxiv.org/html/2606.24396#bib.bib27))。

## 3 实验评估

我们在 SQuAD（关联检索）、WikiText（生成动力学）和 VTAB-1k（视觉适配）上将 H-Res 与 LoRA (Hu et al., 2021 (https://arxiv.org/html/2606.24396#bib.bib2)) 和 Soft Prompting (VPT) (Jia et al., 2022 (https://arxiv.org/html/2606.24396#bib.bib3)) 进行比较。

### 3.1 效率与保真度的权衡

参见子标题说明

图 2: 效率与保真度的帕累托前沿。左轴（红色）：SQuAD 检索损失（越低越好）。H-Res (3.78) 显著优于 LoRA (5.17) 和 VPT (5.61)。右轴（蓝色）：WikiText 生成速度（越高越好）。H-Res 匹配 LoRA 的速度并优于 VPT，证实了理论 O(N²) 优势。

如图 2 (https://arxiv.org/html/2606.24396#S3.F2) 所示，H-Res 主导了帕累托前沿。在 SQuAD 上，H-Res 实现了 3.78 的验证损失，比 LoRA 提升 26%。这证实了我们的假设：全局权重变形会扭曲细粒度吸引子。此外，H-Res 避免了 VPT 的计算代价，在生成任务中保持了高吞吐量 (Devlin et al., 2019 (https://arxiv.org/html/2606.24396#bib.bib20); Touvron et al., 2021 (https://arxiv.org/html/2606.24396#bib.bib22))。

### 3.2 视觉适配 (VTAB-1k)

我们在 VTAB-1k 基准套件上将 H-Res V2600 与 VPT 进行比较 (Zhai et al., 2019 (https://arxiv.org/html/2606.24396#bib.bib11))。

表 1: 主要结果：H-Res V2600 vs. Visual Prompt Tuning (VPT)

H-Res 在自然领域优于 VPT (59.37% vs 58.90)。

### 3.3 消融研究

表 2 (https://arxiv.org/html/2606.24396#S3.T2) 显示 H-Res 比 VPT 扩展更有效。虽然增加 VPT 中的提示长度可能导致优化不稳定（准确率从 76.54% 下降到 70.48）。

表 2: 消融研究：H-Res vs. VPT 在潜适配任务上

## 4 讨论

### 4.1 流形操控 vs. 全局变形

H-Res 的成功暗示了 PEFT 的范式转变。与其修改记忆本身（权重）或查询（提示），我们应该修改检索的动态。通过学习一个残差向量场，H-Res 有效地“冲浪”在预训练的能量景观上 (Sohl-Dickstein et al., 2015 (https://arxiv.org/html/2606.24396#bib.bib34))。

### 4.2 泛化到非 Transformer 架构（SSM）

与依赖于 O(N²) 注意力机制来整合提示的 Prompt Tuning 不同，H-Res 是模型无关的。它完全在残差流中运作，因此自然兼容新兴的次二次架构，如 Mamba (Gu and Dao, 2023 (https://arxiv.org/html/2606.24396#bib.bib31)) 和 S4 (Gu et al., 2022 (https://arxiv.org/html/2606.24396#bib.bib32))。在这些状态空间模型（SSM）中，隐藏状态 h_t 通过线性循环更新。插入额外的“提示标记”会破坏这些模型的连续时间近似。然而，H-Res 可以在状态方程 ḣ(t) = Ah(t) + Bu(t) 中充当“控制输入” u(t)，从而无需架构修改即可实现 SSM 的高效适配。

### 4.3 适配的热力学

H-Res 促进神经坍缩 (Neural Collapse) (Papyan et al., 2020 (https://arxiv.org/html/2606.24396#bib.bib7))，即类内特征收敛到类均值。残差适配器充当麦克斯韦妖，通过滤除任务无关噪声（高能状态）并将轨迹导入低能吸引子，从而降低潜状态的熵。这种热力学视角与深度学习统计力学的最新发现 (Bahri et al., 2020 (https://arxiv.org/html/2606.24396#bib.bib19)) 一致，表明适配等效于将系统冷却到新的有序相。

## 5 结论

我们提出了 H-Res，一个通过并行残差操控解决关联记忆中可塑性-稳定性困境的框架。通过将输入空间提示替换为潜空间流形调制，H-Res 保留了预训练模型的关联容量、序列长度和能量景观。我们的结果证实，H-Res 不仅更高效 (O(N²))，而且独特地能够在复杂认知任务中维持高保真度关联检索，为下一代架构（如 Mamba）中的通用适配奠定了基础。

## 参考文献

- A. Aghajanyan, L. Zettlemoyer, and S. Gupta (2021) Intrinsic dimensionality explains the effectiveness of language model fine-tuning. ACL. Cited by:1st item (https://arxiv.org/html/2606.24396#S1.I1.i1.p1.2).
- Y. Bahri, J. Kadmon, S. Ganguli, et al. (2020) Statistical mechanics of deep learning. Annual Review of Condensed Matter Physics. Cited by:§2.4 (https://arxiv.org/html/2606.24396#S2.SS4.p1.5), §4.3 (https://arxiv.org/html/2606.24396#S4.SS3.p1.1).
- R. T. Chen, Y. Rubanova, J. Bettencourt, and D. K. Duvenaud (2018) Neural ordinary differential equations. NeurIPS.

并行流形引导：通过残差能量塑形实现大型关联记忆的高效适应

相似文章

通过参数化记忆扩展自进化智能体

CERSA：一种用于内存高效微调的累积能量保留子空间自适应方法

变分线性注意力：用于长上下文 Transformer 的稳定联想记忆

HAGE: 通过强化学习驱动加权图演化利用智能体记忆

内存高效型循环Transformer：循环语言模型中的计算与内存解耦

提交意见反馈