HoReN：用于大规模序列模型编辑的归一化Hopfield检索

arXiv cs.LG 2026/05/12 04:00 论文

摘要

本文介绍了HoReN，这是一种参数保留的模型编辑方法，使用归一化Hopfield检索来处理对大型语言模型的大规模序列更新。它解决了知识积累和路由挑战的问题，在50,000次序列编辑上展示了稳定的性能，而先前的方法在这种情况下性能会退化。

arXiv:2605.08143v1 公告类型：新摘要：大型语言模型编码了广泛的事实知识，但在部署后不可避免地会过时或出现错误，然而重新训练成本高昂且难以承受，这促使我们在终身学习设置中进行模型编辑，以更新目标行为而不损害模型的其余部分。一类工作通过定位-编辑过程直接修改基础权重来安装新事实，但随着编辑的积累，即使基于约束的投影也会逐渐破坏原本保存的知识。互补的方法保留基础权重不变并通过外部内存路由编辑，但它面临路由挑战，在大规模情况下性能会下降。我们提出了HoReN，一种基于码本的参数保留编辑器，具有增强型路由，建立在三个想法之上。首先，HoReN将单个MLP层与离散键值码本包裹在一起，其中每个条目同时解释为知识-记忆键和现代Hopfield存储模式。其次，键和查询都被投影到单位超球面上，以便检索由角度相似性控制，消除了编辑提示及其重写之间的幅度驱动不匹配。第三，查询通过阻尼Hopfield吸引子动力学细化，因此 paraphrase（改写）可以放松到正确存储模式的吸引盆中，而不相关的查询则不受干扰。HoReN在涵盖标准ZsRE、结构化WikiBigEdit和无结构UnKE评估的各种基准测试中实现了良好编辑的性能，并且表现一致。此外，HoReN在ZsRE上扩展到了50,000次序列编辑，整体性能稳定在0.9以上，而先前的编辑器在达到10,000次之前就已经崩溃或严重退化。我们的代码可在https://github.com/ha11ucin8/HoReN获取。

查看原文

查看缓存全文

缓存时间: 2026/05/12 06:53

# HoReN：用于大规模顺序模型编辑的归一化 Hopfield 检索

来源：https://arxiv.org/html/2605.08143
Yuan Fang<sup>1</sup>, Yi Xie<sup>2</sup>, Xuming Ran<sup>3</sup>
<sup>1</sup>IXL Learning, Inc, <sup>2</sup>慕尼黑工业大学, <sup>3</sup>新加坡国立大学

###### 摘要

大型语言模型（LLMs）编码了海量的事实性知识，但在部署后这些知识不可避免地会过时或出现错误。然而，重新训练成本高昂且往往不可行，这促使我们在终身学习场景下研究**模型编辑（model editing）**，旨在更新目标行为而不损害模型的其余部分。一类工作通过“定位-然后-编辑（locate-then-edit）”程序直接修改基础权重来安装新事实，但即使采用基于约束的投影，累积的编辑也会逐渐破坏原本保留的知识。另一类互补的工作保持基础权重不变，通过外部记忆路由编辑，但这面临着路由挑战，且其性能在大规模时会下降。

我们提出了 **HoReN**，这是一种基于码本的参数保留型编辑器，其增强型路由建立在三个核心理念之上。首先，HoReN 用一个离散键值码本包裹单个 MLP 层，其中每个条目同时被解释为知识记忆键（knowledge-memory key）和现代 Hopfield 存储模式。其次，键和查询都被投影到单位超球面上，使得检索由角度相似度支配，从而消除了编辑提示及其改写形式之间由幅值驱动的失配。第三，查询通过阻尼 Hopfield 吸引子动力学进行细化，使得同义改写放松进入正确存储模式的吸引域，而不相关的查询则保持不受干扰。HoReN 在跨越标准 ZsRE、结构化 WikiBigEdit 和非结构化 UnKE 评估的多样化基准测试中实现了良好的编辑性能并持续取得增益。此外，HoReN 在 ZsRE 上扩展至 5 万次顺序编辑，整体性能稳定在 0.9 以上，而先前的编辑器在达到 1 万次之前就会崩溃或严重退化。我们的代码可用於 https://github.com/ha11ucin8/HoReN。

## 1 引言

大型语言模型（LLMs）[4, 29, 2, 1] 已成为开放域问答、代码生成和对话的事实接口，但它们所描述的世界并非静止不变。事实会过时，部署中会发现错误或幻觉输出，下游运营商经常需要注入预训练时不存在修正。对于每一次这样的更新，端到端重新训练一个十亿参数模型的成本 prohibitive 极高，并且有退化从原始语料库中获得的能力的风险——这是经典的**灾难性遗忘（catastrophic forgetting）**问题[11, 24, 28, 17]的一个实例——这促使了大量关于**模型编辑**的工作：针对特定提示修订冻结 LLM 行为的定向程序，同时保持其其他行为 intact[18, 7, 26]。

在实践中，需求并非单次编辑，而是持续到来的编辑流，并在三个竞争轴上进行联合评估：**可靠性（reliability）**（在编辑提示上）、**泛化性（generalization）**（对自然改写形式的适应）以及**局部性（locality）**（对不相关输入的影响）[26, 27, 16]。

**图 1：ZsRE 上从 100 到 5 万次顺序编辑的整体性能（OP，可靠性、泛化性和局部性的几何平均值）缩放（LLaMA-3.1-8B）。HoReN 在 5 万次编辑中保持 OP ≥ 0.93，而所有基线在 1 万次之前就会崩溃或 plateau：ROME 立即失败（0.03），GRACE 在 0.37–0.39 处持平，WISE 下降至 0.51，AlphaEdit 从 2K 处的 0.82 断崖式下跌至 10K 处的 0.08，UltraEdit 下降至 0.67。超过 1 万次后，只有 HoReN 保持在 0.90 稳定性带内。每指标细分和每检查点表格见附录 E.1。**

现有编辑器分为两大范式。**参数修改方法**改变基础模型的权重。占主导地位的“定位并编辑”路线，以 ROME[18]及其后继者[19, 5]为例，通过因果追踪分析识别出一组充当键值联想记忆以存储事实知识的 MLP 权重，然后对相应权重进行更新，使得目标“键”（主体表示）映射到新的“值”（期望对象）。该范式内的另一分支，以 UltraEdit[6]为代表，脱离了定位-然后-编辑的配方，而是直接从隐藏状态及其梯度计算一次性参数偏移，通过终身特征统计归一化进行控制，该归一化在编辑过程中不断更新。**参数保留方法**则保持基础权重不变，通过外部记忆路由编辑行为：GRACE[7]在选定层维护一个离散码本，当传入激活落在存储键的委托半径内时覆盖该层的输出；而 WISE[26]保留可编辑区域的单独“侧边记忆”副本，并在推理时在侧边记忆和原始权重之间进行门控。

一旦编辑累积，每种范式都暴露出结构性弱点。生产规模 LLMs 的参数编码了数万预训练 token 的统计信息；用单次编辑的梯度更新它们会过拟合到该单个样本，并侵蚀邻近知识[11]。基于约束的补救措施（如 AlphaEdit 的零空间投影[5]）试图将扰动限制在不改变一组**保留知识**键向量的方向上，但投影在顺序 regime 下有两个内在局限性。首先，零空间是从有限数量的预训练风格激活中**估计**的，因此它对基础模型实际表示内容的覆盖只是一个代理。其次，一旦编辑流开始，投影器本身不会刷新以包含之前应用的编辑的键，因此 AlphaEdit 自己的过去编辑不再受下次更新的保护——早期编辑的可靠性漂移，且随着码本增长，局部性断崖式下降（图 1）。参数保留方法通过构造避开了这种灾难性遗忘故障模式，但继承了另一种故障模式：WISE 保留了局部性，但其侧边记忆性能随着更多编辑尝试驻留在同一侧边记忆或一组侧边记忆中而退化；而 GRACE 的硬半径最近邻查找在确切提示上可靠，但无法识别编辑事实的自然改写，导致泛化率接近零。

参数保留编辑器中的路由失败源于特定的几何失配。表 1 和图 5 在所有基线上确认了这一模式：基于记忆的编辑器保留了可靠性，但随着编辑累积，泛化性崩溃。根本原因是，编辑键是从原始提示的隐藏状态构建的，而改写会产生不同的表示，在存储键和传入查询之间创建了非平凡的角度间隙。诊断比较（表 10）表明，归一化消除了由幅值驱动的失配，但这种角度间隙仍然存在——仅靠键匹配无法弥合这一差距。问题随规模加剧：更大的码本引入了更多竞争键，即使存在正确键，也放大了路由歧义。因此，大规模顺序模型编辑需要一种检索规则，该规则在不相关输入之间保留角度分离，同时将改写的查询主动拉向正确的编辑。

我们提出 **HoReN**（Hopfield Retrieval with Normalized representations，基于归一化表示的 Hopfield 检索），这是一种参数保留型编辑器，旨在继承码本范式的局部性，同时缩小其泛化差距。HoReN 结合了先前工作保持分离的三个想法：
(i) GRACE[7]的**码本架构**：冻结基础模型，一个 MLP 层被离散键值记忆包裹，因此每个编辑只存储一次且不再触碰。
(ii) **归一化**：键和查询投影到单位超球面上，因此检索取决于角度相似度而非激活幅值——这由路由层处后激活 MLP token 的几何形状证明，其中隐藏状态向量的方向编码了回忆哪个事实，而其幅值反映了特定提示的增益，使得单位超球面上的余弦匹配成为几何上自然的原始操作。
(iii) **Hopfield 动力学**[23, 12]：每个码本条目同时被读作 ROME 意义上的知识记忆键[18]和现代 Hopfield 网络的存储模式，因此码本成为能量盆地场，在匹配前的一个阻尼吸引子步骤让同义改写放松进入正确记忆的盆地，同时让不相关查询基本不受干扰。
匹配的编辑通过下一层的轻量级值适配器实现，因此整个干预集中在路由决策上。这两个组件发挥互补作用：归一化通过保持不相关查询在超球面上的分离来保护局部性，而一步阻尼 Hopfield 步骤通过允许改写查询放松进入正确编辑的盆地来缩小泛化差距。

我们通过理论分析和大规模实验验证了 HoReN，并且这两个设计选择都获得了可解释的经验对应。与未归一化变体的诊断比较证实了与 ROME 对齐的假设：对于后激活 MLP 张量，是激活的**方向**而非幅值选择了回忆哪个知识，因此单位球面上的余弦匹配是构建检索的正确原始操作。Hopfield 细化提供了第二部分：码本成为能量盆地场，其吸引子动力学门控哪些存储模式被检索用于给定查询，通过细化步骤数量控制原则性的泛化/局部性权衡。

这种组合产生了一种没有灾难性退化的顺序编辑器：在 LLaMA-3.1-8B 上的受控 ZsRE 压力测试中，HoReN 在多达 5 万次累积编辑中保持可靠性、泛化性和局部性均在 89% 以上（图 1），而我们比较的所有基线在 1 万次之前就已经断崖式下跌（AlphaEdit, ROME）、漂移（UltraEdit, WISE）或泛化性持平（GRACE）。同样的优势也延续到结构化 WikiBigEdit[25]和非结构化 UnKE[3]。

我们的主要贡献如下：
- 我们刻画了终身编辑中的结构性分歧：参数修改编辑器随着其约束子空间无法覆盖累积编辑而退化保留知识，而参数保留编辑器由于幅度敏感的最近邻路由无法弥合编辑提示及其改写之间的表示差距而失去泛化性。
- 我们提出了 HoReN，一种参数保留型编辑器，在归一化 Hopfield 检索规则下统一了 ROME 键值记忆视图和 GRACE 码本架构：单位超球面上的角度匹配提供局部性，一步阻尼 Hopfield 步骤提供稳健的同义改写泛化性。
- 我们提供了理论分析，表明迭代标准 Hopfield 动力学至收敛会将所有查询（包括不相关查询）吸引到存储码，从而正式证明了 HoReN 的单步部署；我们从经验上证实，归一化是泛化增益的主要驱动因素，因为它消除了键比较中由幅值驱动的失配。
- 我们在 LLaMA-3.1-8B 上的 5 万次编辑 ZsRE 压力测试中展示了大规模稳定性——先前方法在 1 万次编辑之前就已经断崖式下跌、漂移或持平——并在跨越四个模型家族的七个 LLMs 上的结构化 WikiBigEdit 和非结构化 UnKE 上确认了持续增益。

**图 2：HoReN 的整体架构，结合了归一化表示和 Hopfield 风格检索。流程：(1) 从第 l 层提取隐藏状态；(2) 池化 token 表示以构建查询；(3) 将查询归一化到单位超球面；(4) 对归一化码本应用一步 Hopfield 风格细化；(5) 在第 l+1 层进行键匹配和值适配。此设计实现了互补益处：归一化通过角度相似度匹配保留局部性，而 Hopfield 风格细化通过将查询移向编辑键吸引子来改善同义改写路由。**

## 2 方法

HoReN 继承了 GRACE[7]的架构骨架：基础模型 $f_{\theta_0}$ 被冻结，单个 MLP 层 $l$ 被包裹在一个离散码本 $\mathcal{C} = \{ (k_i, v_i, y_i) \}_{i=1}^{C}$ 中（图 2）。在推理时，传入查询通过码本路由；成功匹配会用匹配值覆盖层的输出，而未匹配的查询则通过基础模型不变地传递。编辑简化为两个问题：**存储什么**以及**如何将查询路由到正确条目**。HoReN 对这两个问题的回答都源于将每个存储键同时视为 ROME 风格的知识记忆索引[18]和现代 Hopfield 网络[23]中的吸引子盆地：键和查询被投影到单位超球面上，以便检索纯粹是角度的（第 2.2 节），路由通过在匹配决策之前在码本吸引子场下的单次受控松弛进行（第 2.3 节）。

### 2.1 问题表述

**设置。** 遵循[26]的终身编辑设置，令 $f_\theta: \mathcal{X} \rightarrow \mathcal{Y}$ 为具有预编辑参数 $\theta_0$ 的 LLM。每个编辑索引 $t$ 携带一个原始提示 $x_t$、一个改写 $\tilde{x}_t$、一个共享目标 $y_t^*$ 以及一个不相关的局部性查询 $x_t^{\mathrm{loc}}$。在步骤 $t$，编辑器产生 $f_{\theta_t} = \mathrm{ModelEditing}(f_{\theta_{t-1}}, x_t, y_t^*)$，使得

$$
f_{\theta_t}(x) = \begin{cases} 
y_t^*, & x \in \{x_t, \tilde{x}_t\} \\
f_{\theta_0}(x), & x = x_t^{\mathrm{loc}}
\end{cases}
$$

HoReN：用于大规模序列模型编辑的归一化Hopfield检索

相似文章

HyperPatch：面向n元结构漂移的序列知识编辑

模态解耦的在线递归编辑

迷宫与线索：重新思考大语言模型中序列知识编辑的正则化

重新审视大语言模型中基于参数的知识编辑：理论极限与实证证据

大型语言模型中记忆缓解的输出向量编辑

提交意见反馈