重新审视大语言模型中基于参数的知识编辑：理论极限与实证证据

arXiv cs.CL 2026/06/02 04:00 论文

摘要

本文对LLMs中基于参数的知识编辑进行了理论分析，揭示了局部编辑如何导致全局推理崩溃，并提供了检索方法优于参数编辑方法的实证证据。

arXiv:2606.00570v1 公告类型：新摘要：基于参数的知识编辑通过局部权重修改来更新大语言模型（LLMs）的内部知识，并引起了广泛关注。然而，大多数现有方法忽视了基本的理论限制，并且很少在现实、以实践为导向的环境中进行评估。在本文中，我们首先基于维度崩溃假说进行理论分析，解释了局部参数编辑如何沿表示空间中的脆弱方向传播，引发全局干扰，最终导致推理崩溃。基于这一见解，我们通过系统性地改变知识复杂度、编辑次数、评估维度和基线方法，进行了全面的实证评估。我们的结果表明，基于参数的编辑方法持续损害LLMs的核心能力。相比之下，一个简单的基于检索的基线在所有评估条件下均表现出比所有参数编辑方法更强的性能。这些发现表明，在知识编辑后保持LLMs的基本能力应成为未来研究的核心关注点。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:37

# 重新审视大语言模型中的参数化知识编辑：理论极限与实证证据
来源：https://arxiv.org/html/2606.00570

###### 摘要

参数化知识编辑通过局部权重修改来更新大语言模型（LLM）的内部知识，并已引起广泛关注。然而，大多数现有方法忽略了基本的理论局限性，并且很少在现实、面向实践的设置下进行评估。在本文中，我们首先基于维度坍塌假说进行理论分析，解释局部参数编辑如何沿着表示空间中的脆弱方向传播，引发全局干扰，最终导致推理崩溃。基于这一见解，我们通过系统改变知识复杂性、编辑次数、评估维度和基线方法，进行了全面的实证评估。我们的结果表明，参数化编辑方法持续损害LLM的核心能力。相比之下，一个简单的基于检索的基线在所有评估条件下均比所有参数编辑方法表现更稳定且更强。这些发现表明，在知识编辑后保留LLM的基本能力应成为未来研究的核心关注点。

## 1 引言

大语言模型（LLMs）（Zeng et al.,2023 (https://arxiv.org/html/2606.00570#bib.bib114); Touvron et al.,2023 (https://arxiv.org/html/2606.00570#bib.bib87); OpenAI,2023 (https://arxiv.org/html/2606.00570#bib.bib74)）通过大规模预训练和后训练（Brown et al.,2020 (https://arxiv.org/html/2606.00570#bib.bib4); Ouyang et al.,2022 (https://arxiv.org/html/2606.00570#bib.bib75)）获得了广泛的世界知识（Jiang et al.,2020 (https://arxiv.org/html/2606.00570#bib.bib44); AlKhamissi et al.,2022 (https://arxiv.org/html/2606.00570#bib.bib1); Zhang et al.,2023c (https://arxiv.org/html/2606.00570#bib.bib122)）和卓越的上下文推理能力（Liu et al.,2023 (https://arxiv.org/html/2606.00570#bib.bib57); Lee et al., (https://arxiv.org/html/2606.00570#bib.bib46)）。然而，随着世界知识的不断演变，LLM中编码的一些信息不可避免地变得过时或不准确（Mousavi et al.,2024 (https://arxiv.org/html/2606.00570#bib.bib71); Ji et al.,2023 (https://arxiv.org/html/2606.00570#bib.bib40)）。为了解决这个问题，知识编辑方法（Sinitsin et al.,2020 (https://arxiv.org/html/2606.00570#bib.bib85); Rawat et al.,2021 (https://arxiv.org/html/2606.00570#bib.bib80)）被提出，通过最小的参数修改或外部知识存储将新获得的知识融入LLM。

参见图注

**图1：四种知识编辑方法的训练和推理流程**。训练过程显示在绿线上方，推理阶段显示在下方。(a)和(b)通过修改LLM参数进行知识编辑。

知识编辑方法大致可分为四种主要类型，根据它们调整LLM参数以整合收集到的文本知识的方式区分。图1 (https://arxiv.org/html/2606.00570#S1.F1) 展示了它们在训练和推理期间各自的流程。

(a) **定位-编辑方法**（Meng et al.,2022b (https://arxiv.org/html/2606.00570#bib.bib67), https://arxiv.org/html/2606.00570#bib.bib65; Li et al.,2024c (https://arxiv.org/html/2606.00570#bib.bib53)）假设特定知识与某些LLM参数相关联；它们首先定位与目标知识对应的神经元，然后编辑相关参数以融入新知识。

(b) **基于元学习的方法**（De Cao et al.,2021 (https://arxiv.org/html/2606.00570#bib.bib13); Tan et al., (https://arxiv.org/html/2606.00570#bib.bib86)）假设知识更新过程中参数变化的模式是可学习的；训练一个编辑器模型来修改LLM中与目标知识相关的特定层参数。

(c) **基于额外参数的方法**（Huang et al.,2023 (https://arxiv.org/html/2606.00570#bib.bib37); Yu et al.,2024 (https://arxiv.org/html/2606.00570#bib.bib113); Wang et al.,2024b (https://arxiv.org/html/2606.00570#bib.bib91)）假设新知识可以存储在LLM外部的额外参数中；引入适配器层或其他辅助组件来编码新知识，同时保持基础LLM参数不变。

(d) **基于外部记忆的方法**（Hartvigsen et al.,2024 (https://arxiv.org/html/2606.00570#bib.bib29); Mitchell et al.,2022 (https://arxiv.org/html/2606.00570#bib.bib70)）将更新的知识存储为文本、嵌入、隐藏状态或轻量级模型；在推理过程中，检索最相关的信息以支持LLM推理，而不修改LLM参数。

直接修改LLM内部参数的方法吸引了大量研究关注，部分原因是它们看起来更有原则性，相比原始模型不会增加推理时间开销，并且在特定的评估协议下通常能实现看似完美的知识更新。

然而，从理论角度来看，我们认为这些优势可能具有误导性。尽管局部参数编辑对于孤立的真实更新可能有效，但LLM表示空间中的维度坍塌创建了脆弱的低方差方向，在这些方向上，即使微小的权重扰动也会被不成比例地放大。这种放大扭曲了表示几何结构，并通过后续层传播，导致无关知识的灾难性遗忘、泛化能力下降和推理受损。在本工作中，我们在第4节 (https://arxiv.org/html/2606.00570#S4) 中建立了一个理论分析，以刻画参数化知识编辑方法的基本局限性。

从实证角度来看，大多数现有研究尚未充分评估LLM核心能力和现实应用场景下的知识编辑方法。尽管一些工作强调了特定评估维度的不足，但这些讨论仍然零散，尚未形成广泛接受的系统性框架。LLM不仅编码孤立的事实知识（例如三元组），还编码复杂的事件级知识，其能力不仅限于回答简单事实，还包括灵活的知识应用和更深层次的推理，例如反向关系推理和多跳推理。现实的编辑场景应涉及顺序、连续的更新，而非单次编辑，并且参数化编辑方法应与基于外部知识的范式（例如检索增强生成 (RAG)）进行系统性比较。实证结果在第5节 (https://arxiv.org/html/2606.00570#S5) 中展示。我们的贡献有三方面111代码可在GitHub链接 (https://github.com/ECNU-Text-Computing/Revisiting-Parameter-Based-Knowledge-Editing) 获取。：

1. (1) 我们开发了一个几何理论框架，刻画了局部参数编辑如何使LLM表示不稳定。
2. (2) 我们在现实设置下进行了全面的实证评估，表明此类编辑一致地损害LLM的核心能力。
3. (3) 我们的结果阐明了参数化知识编辑的基本局限性，并突出了机制中的稳定性-效率权衡。

## 2 相关工作

LLM中的知识编辑受到越来越多的关注，众多方法旨在提高准确性和效率（Li & Chu,2025 (https://arxiv.org/html/2606.00570#bib.bib51); Fang et al.,2025b (https://arxiv.org/html/2606.00570#bib.bib19); Scialanga et al.,2025 (https://arxiv.org/html/2606.00570#bib.bib82); Nie et al.,2025 (https://arxiv.org/html/2606.00570#bib.bib72); Zhang et al.,2026 (https://arxiv.org/html/2606.00570#bib.bib123); Liu et al., (https://arxiv.org/html/2606.00570#bib.bib56)）。尽管大多数工作侧重于提高孤立更新的事实正确性，但也有少数研究指出了参数化编辑的潜在局限性。例如，Pinter & Elhadad (2023 (https://arxiv.org/html/2606.00570#bib.bib79)) 注意到事实一致性与预训练目标之间的冲突，而Wang et al. (2025 (https://arxiv.org/html/2606.00570#bib.bib90)) 量化了局部编辑对隐藏表示的涟漪效应，导致模型性能下降。类似地，Gu et al. (2024b (https://arxiv.org/html/2606.00570#bib.bib24)); Xie et al. (2025 (https://arxiv.org/html/2606.00570#bib.bib103)) 观察到提高事实准确性往往损害推理、自然语言推理和问答，仅编辑1%的参数就会损害不相关的任务。此外，微小的参数修改会降低文本连贯性（Yang et al.,2024d (https://arxiv.org/html/2606.00570#bib.bib109)），在某些特定方法（如ROME）中引发模型崩溃（Yang et al.,2024e (https://arxiv.org/html/2606.00570#bib.bib110)），放大现有偏见（Halevy et al.,2024 (https://arxiv.org/html/2606.00570#bib.bib28)），或在教师强制设置下产生误导性评估（Yang et al.,2025 (https://arxiv.org/html/2606.00570#bib.bib111)）。机制分析强调了定位-编辑方法中的失败模式，为键值表示提供了理论见解（Yan et al.,2024 (https://arxiv.org/html/2606.00570#bib.bib105)）。更广泛的讨论见附录A.1 (https://arxiv.org/html/2606.00570#A1.SS1)。

尽管这些研究显著增强了对知识编辑风险的实证理解，但其贡献仍主要是现象学层面的，局限于特定现象：个别失败模式、方法变体或孤立的评估设置。它们尚未汇聚成一个统一的理论框架来解释为什么参数编辑会广泛损害LLM性能。它们也没有建立全面且一致的评估标准（如附录A.2 (https://arxiv.org/html/2606.00570#A1.SS2) 中表4 (https://arxiv.org/html/2606.00570#A1.T4) 所总结的），以捕捉LLM的核心能力和现实应用场景。

相比之下，本文做出了两个互补的贡献，平衡理论分析和实证评估。首先，我们基于维度坍塌假说开发了一个数学基础框架，正式证明即使微小的参数编辑也会破坏预训练诱导的知识几何结构，导致系统性的推理失败。其次，我们进行了全面的基准测试，在多样的知识格式、面向推理的LLM、多步编辑场景和实际推理任务上比较了参数化范式与基于外部知识的范式（例如RAG）。这一评估包含了广泛的鲁棒性和能力保留指标，超越了先前的基准（Chen et al.,2025 (https://arxiv.org/html/2606.00570#bib.bib6)）。这些贡献共同为参数化知识编辑的局限性奠定了理论基础和实证证据，揭示了关键应用相关特性中潜在的忽视之处，并为未来研究提供了实际启示和可行方向。

## 3 预备知识

基于三元组的知识编辑专注于将原始语言模型 \( f^0 \) 中的事实三元组 \( e = (h, r, t) \) 更新为新的三元组 \( e' = (h, r, t_*) \)。例如，将 (巴拉克·奥巴马, 出生地, 夏威夷) 编辑为 (巴拉克·奥巴马, 出生地, 肯尼亚)。更新后的模型 \( f^1 \) 通过将编辑者 \( \mathcal{E} \) 应用于初始模型 \( f^0 \) 和知识更新 \( e' \) 获得：
\[
f^1 = \mathcal{E}(f^0, e'), \quad \text{使得} \ e' \in f^1
\]
(1)

事实知识（例如三元组）可以表示为单个提示-答案对 \( e = [(x, y)] \)，而更复杂的事件则使用多个提示-答案对 \( e = [(x_1, y_1), \cdots, (x_m, y_m)] \) 表示，其中 \( x \) 表示引出知识的提示，\( y \) 表示答案，\( m \) 表示对的数量。编辑后，更新后的模型 \( f^1 \) 应为相应提示 \( x \) 输出真实答案 \( y \)。

**编辑场景**。

**单个编辑** 指LLM一次只更新一条知识（\( E = [e_1] \)）的过程。

**顺序编辑**（也称为终身编辑或持续编辑（Hartvigsen et al.,2024 (https://arxiv.org/html/2606.00570#bib.bib29); Yu et al.,2024 (https://arxiv.org/html/2606.00570#bib.bib113); Wang et al.,2024b (https://arxiv.org/html/2606.00570#bib.bib91)））指反复应用编辑方法更新知识序列 \( E_t = [e_1, e_2, \ldots, e_t] \)。因此，LLM 经过多次更新从 \( f^0 \) 演化为 \( f^t \)。注意，在顺序编辑设置中，每种方法操作方式不同：定位-编辑方法每次更新修改LLM参数的一个子集；基于元学习的方法使用学习到的编辑器更新目标模型的参数；基于额外参数的方法重复更新外部参数组件；基于外部记忆的方法只更新存储新引入知识的外部知识库（如文本语料库或向量存储）。

**评估维度**。

经过 \( t \) 次更新后，编辑后的模型 \( f^t \) 在四个维度上进行评估（Zhang et al.,2024b (https://arxiv.org/html/2606.00570#bib.bib116)）：

• **可靠性**：编辑后的LLM应可靠地为 \( E_t \) 中的提示生成更新后的目标输出，确保编辑的持久性：
\[
\mathbb{E}_{(x_i, y_i) \sim E_t} \mathbb{I}\{\arg\max_y f^t(y \mid x_i) = y_i\}.
\]
(2)

• **泛化性**：编辑后的LLM应能超越精确编辑，对改写后的提示（记为 \( N(E_t) \)）正确响应：
\[
\mathbb{E}_{(x_i, y_i) \sim N(E_t)} \mathbb{I}\{\arg\max_y f^t(y \mid x_i) = y_i\}.
\]
(3)

• **局部性**：编辑后的LLM应保留其对与编辑无关的查询（记为 \( O(E_t) \)）的原始行为，确保稳定性和最小的意外变化：
\[
\mathbb{E}_{(x_i, y_i) \sim O(E_t)} \mathbb{I}\{f^t(y \mid x_i) = f^0(y \mid x_i)\}.
\]
(4)

• **可迁移性**：编辑后的LLM应有效传播编辑内容，使下游推理 \( D(E_t) \) 受益，包括处理别名、因果关系和反向关系。尽管这一维度非常重要，但在许多研究中被忽视（如表4 (https://arxiv.org/html/2606.00570#A1.T4) 所示）：
\[
\mathbb{E}_{(x_i, y_i) \sim D(E_t)} \mathbb{I}\{\arg\max_y f^t(y \mid x_i) = y_i\}.
\]
(5)

**通用任务评估**。

除了知识编辑评估维度外，评估编辑后的LLM是否保留处理通用任务的能力也很重要。在本研究中，使用数学推理数据集来评估编辑后模型的推理能力。一个成功的编辑过程应在实现精确目标更新的同时，保留LLM的核心能力。

重新审视大语言模型中基于参数的知识编辑：理论极限与实证证据

相似文章

迷宫与线索：重新思考大语言模型中序列知识编辑的正则化

大型语言模型多语言知识编辑的合并方法：一项实证探索

文本编辑能否泛化到视觉生成？统一多模态模型中的跨模态知识编辑基准测试

超越推理：强化学习释放大型语言模型中的参数化知识

使用逻辑规则的知识编辑基准测试

提交意见反馈