迷宫与线索:重新思考大语言模型中序列知识编辑的正则化
摘要
本文研究了大型语言模型中序列知识编辑的底层机制,表明许多正则化策略是不必要的,并且稳定性源于正确考虑累积的编辑约束而自然产生。
arXiv:2605.26670v1 Announce Type: new
摘要:在大语言模型中对结构化知识进行序列编辑可以实现有针对性的事实更新而无需重新训练,然而现有方法通常依赖复杂的正则化或约束机制,其必要性尚不清楚。本文系统研究了有效且稳定的序列编辑的底层机制。具体而言,我们首先分析了AlphaEdit的经验成功,并通过严格的优化分析建立了一次性编辑与序列编辑之间的形式等价性。基于这一见解,我们将等价性推广到更广泛的编辑目标类别,证明稳定性源自正确考虑累积的编辑约束,而非专门的正则化或零空间操作。我们通过实验证实,许多常用的正则化策略对于可靠的序列更新并非必要。此外,我们扩展了框架以处理冲突编辑,确保在矛盾更新下具有鲁棒且一致的行为。最终,我们的工作为序列编辑的迷宫提供了阿里阿德涅之线,开辟了一条通往更简单、更可解释且更可靠的知识更新之路。我们的代码可在 https://github.com/Wangzzzzzzzz/OTE-SE-Alignment 获取。
查看缓存全文
缓存时间: 2026/05/27 09:08
# 迷宫与线索:重新思考大型语言模型中序列知识编辑的正则化 来源: https://arxiv.org/html/2605.26670 ###### 摘要 大型语言模型中结构化知识的序列编辑能够在不重新训练的情况下进行有针对性的事实更新,然而现有方法往往依赖于复杂的正则化或约束机制,其必要性尚不清楚。在这项工作中,我们系统研究了有效且稳定的序列编辑背后的机制。具体来说,我们首先分析了AlphaEdit的经验成功,并通过严格的优化分析,建立了一次编辑与序列编辑之间的形式等价性。基于这一洞见,我们将这种等价性推广到更广泛的编辑目标类别,证明稳定性是正确处理累积编辑约束的自然结果,而非来自专门的正则化或零空间操作。我们经验性地证实,许多常用的正则化策略对于可靠的序列更新并非必要。此外,我们将框架扩展到处理冲突编辑,确保在矛盾更新下的鲁棒和一致行为。最终,我们的工作为序列编辑的迷宫提供了阿里阿德涅之线,指明了通向更简单、更可解释且更可靠的知识更新的路径。我们的代码可在https://github.com/Wangzzzzzzzz/OTE-SE-Alignment获取。 知识编辑, 大型语言模型 参见标题 参见标题参见标题 图1:(左)理论洞察:一次编辑(OTE)与序列编辑(SE)之间的等价性是稳定序列更新的关键;(右)GLUE基准上的经验证据:与OTE对齐的SE能保持性能,而OTE不对齐则导致显著退化。 ## 1引言 大型语言模型(LLM)日益成为事实知识的存储库,其中许多知识可以表示为结构化三元组 (subject, relation, object) (Meng et al.,2022 (https://arxiv.org/html/2605.26670#bib.bib20))。随着这些模型被部署在动态变化的环境中,能够精确更新或修正特定结构化知识 (Sinitsin et al.,2020 (https://arxiv.org/html/2605.26670#bib.bib28)) 而无需从头重新训练,已成为一个核心挑战。这促进了结构化知识编辑领域的发展,该领域致力于修改模型在目标事实三元组上的行为,同时保持其通用能力 (De Cao et al.,2021 (https://arxiv.org/html/2605.26670#bib.bib4); Wang et al.,2024 (https://arxiv.org/html/2605.26670#bib.bib34); Hu et al.,2025 (https://arxiv.org/html/2605.26670#bib.bib14))。在现有方法中,基于“定位与编辑”范式的参数修改方法尤其有影响力 (Meng et al.,2023 (https://arxiv.org/html/2605.26670#bib.bib21))。这些方法首先识别与目标事实相关的参数,然后应用约束更新以引发所需变化。为了实现序列或终身编辑,近期方法引入了多种机制,包括AlphaEdit中的零空间投影 (Fang et al.,2025 (https://arxiv.org/html/2605.26670#bib.bib6))、通过后处理操作器的隐式正则化 (Gu et al.,2024 (https://arxiv.org/html/2605.26670#bib.bib8); Ma et al.,2025 (https://arxiv.org/html/2605.26670#bib.bib19)) 以及约束优化目标 (Meng et al.,2022 (https://arxiv.org/html/2605.26670#bib.bib20))。总体而言,这些设计旨在减轻编辑之间的干扰并保留先前编辑的知识。值得注意的是,AlphaEdit (Fang et al.,2025 (https://arxiv.org/html/2605.26670#bib.bib6)) 因其在序列编辑中强大的经验稳定性而脱颖而出。然而,这些机制日益增长的多样性和复杂性也引发了一个基本问题:是什么核心要素确保了成功且可靠的序列模型编辑?尽管先前已有一些尝试回答此问题,但现有研究 (Li et al.,2024 (https://arxiv.org/html/2605.26670#bib.bib18); Gupta et al.,2024 (https://arxiv.org/html/2605.26670#bib.bib10); Li & Chu,2024 (https://arxiv.org/html/2605.26670#bib.bib17)) 要么主要是经验性的,缺乏统一的理论基础,要么未能完全解释AlphaEdit等方法 (Fang et al.,2025 (https://arxiv.org/html/2605.26670#bib.bib6)) 的经验成功。在这项工作中,我们旨在通过解决以下研究问题来提供一个原则性的答案:1. RQ1:AlphaEdit的经验成功在多大程度上归因于其零空间投影机制,这一组件在实践中有多关键?2. RQ2:除了AlphaEdit之外,有哪些通用原则支配着有效的序列编辑,能否将它们提炼为具有理论依据的设计准则?3. RQ3:在已经稳定可靠的模型更新之上应用复杂的正则化策略,其实际影响是什么?它们仍然有益吗?回答这些问题需要超越单个机制和正则化技巧。我们的工作表明,序列编辑中的许多表面复杂性是虚幻的。在正则化策略和序列更新规则的迷宫之下,隐藏着一个惊人简单且统一的结构。具体来说,我们证明了一类广泛的“定位与编辑”方法可以表述为普通最小二乘法(OLS)问题,并且通常具有闭式解。在这种统一视角下,当正确纳入过去的编辑约束时,序列编辑与一次编辑在数学上是等价的。这种等价性揭示,编辑间的稳定性并非专门正则化器或零空间操作的新兴属性,而是在正确考虑累积约束的条件下求解相同底层优化问题的直接结果。基于这一洞见,我们进一步将统一公式扩展到处理竞争性或矛盾性编辑,而朴素的序列更新常常在此失败。更广泛地说,我们的工作为社区提供了一个理解序列编辑的原则性框架,阐明了哪些机制是必要的,哪些是多余的。这一视角为设计更简单、更可靠、更可解释的大型语言模型知识更新方法奠定了基础。 ## 2 预备知识 ### 2.1 自回归大型语言模型 仅解码器的大型语言模型(LLM)通过堆叠的Transformer层更新其内部表示。在每一层,下一个隐藏状态是通过将前一残差流与自注意力和前馈网络(FFN)模块的输出相加形成的。由于先前工作表明FFN模块在存储事实关联中起核心作用 (Dai et al.,2022 (https://arxiv.org/html/2605.26670#bib.bib3); Geva et al.,2021 (https://arxiv.org/html/2605.26670#bib.bib7); Meng et al.,2022 (https://arxiv.org/html/2605.26670#bib.bib20)),我们聚焦于FFN输出投影。为简单起见,在以下各节中,我们记W∈Rdo×di\\mathbf{W}\\in\\mathbb{R}^{d_{o}\\times d_{i}}为层特定矩阵Wout(l)\\mathbf{W}_{\\mathrm{out}}^{(l)},其中did_{i}和dod_{o}表示FFN层的输入和输出维度。具体来说,层更新可以写为 h(l)\\displaystyle h^{(l)}=h(l−1)+a(l)+m(l),\\displaystyle=h^{(l-1)}+a^{(l)}+m^{(l)},m(l)\\displaystyle m^{(l)}=Wout(l)σ(Win(l)γ(h(l−1))),\\displaystyle=\\mathbf{W}_{\\mathrm{out}}^{(l)}\\,\\sigma\\!\\left(\\mathbf{W}_{\\mathrm{in}}^{(l)}\\,\\gamma\\!\\left(h^{(l-1)}\\right)\\right),其中γ\\gamma表示层归一化,σ\\sigma是非线性激活函数,而Win(l)\\mathbf{W}_{\\mathrm{in}}^{(l)}和Wout(l)\\mathbf{W}_{\\mathrm{out}}^{(l)}是FFN权重矩阵。 ### 2.2 结构化知识编辑 越来越多的证据表明,结构化事实知识(通常表示为 subject–relation–object 三元组(s,r,o)(s,r,o))主要存储在大语言模型的FFN层中 (Meng et al.,2022 (https://arxiv.org/html/2605.26670#bib.bib20))。这一视角自然地激发了“定位与编辑”范式,即通过直接修改W\\mathbf{W}而不是重新训练整个模型来进行目标知识更新。概念上,每个事实可以解释为一个隐式的键值关联:提示(s,r)(s,r)的隐藏表示充当键kk,而指向目标oo的FFN输出充当相应的值vv。更新一个事实因此对应于通过精心的参数修改引入或调整这些键值关联。为了更新一个事实,我们构建表示所需新知识的键值对(Knew,Vnew)(\\mathbf{K}_{\\text{new}},\\mathbf{V}_{\\text{new}})。我们寻求权重W∈Rdo×di\\mathbf{W}\\in\\mathbb{R}^{d_{o}\\times d_{i}}的一个优化扰动Δ∗\\mathbf{\\Delta}^{*},使得(W+Δ∗)Knew=Vnew(\\mathbf{W}+\\mathbf{\\Delta}^{*})\\mathbf{K}_{\\text{new}}=\\mathbf{V}_{\\text{new}},从而纳入新的关联。同时,我们保留由一组键值对(K0,V0=WK0)(\\mathbf{K}_{0},\\mathbf{V}_{0}=\\mathbf{W}\\mathbf{K}_{0})捕获的现有知识。结合这两个目标,编辑问题可以写为一个单一的普通最小二乘法(OLS)问题,其解具有以下闭式形式111在实际中,K0\\mathbf{K}_{0}和V0\\mathbf{V}_{0}通常通过从Wikitext数据集中随机采样100,000100{,}000个(s,r,o)(s,r,o)三元组来估计 (Merity et al.,2017 (https://arxiv.org/html/2605.26670#bib.bib22))。: Δ∗\\displaystyle\\mathbf{\\Delta}^{*}=argminΔ‖(W+Δ)[K0∣Knew]−[V0∣Vnew]‖F2\\displaystyle=\\arg\\min_{\\mathbf{\\Delta}}\\left\\|(\\mathbf{W}+\\mathbf{\\Delta})\\,[\\mathbf{K}_{0}\\mid\\mathbf{K}_{\\text{new}}]-[\\mathbf{V}_{0}\\mid\\mathbf{V}_{\\text{new}}]\\right\\|_{F}^{2}=(Vnew−WKnew)Knew⊤(K0K0⊤+KnewKnew⊤)−1。\\displaystyle=(\\mathbf{V}_{\\text{new}}-\\mathbf{W}\\mathbf{K}_{\\text{new}})\\mathbf{K}_{\\text{new}}^{\\top}\\left(\\mathbf{K}_{0}\\mathbf{K}_{0}^{\\top}+\\mathbf{K}_{\\text{new}}\\mathbf{K}_{\\text{new}}^{\\top}\\right)^{-1}。 ### 2.3 从一次编辑到序列编辑 虽然经典的“定位与编辑”范式通常假设知识更新是单批次进行的,但LLM在实际部署中常常需要序列编辑,即模型持续纳入新的或变化的事实。与一次更新相比,序列编辑带来了不小的挑战,因为朴素的增量编辑策略可能难以保持编辑间的一致性并维持整体模型行为 (Hartvigsen et al.,2023 (https://arxiv.org/html/2605.26670#bib.bib11); Gu et al.,2024 (https://arxiv.org/html/2605.26670#bib.bib8); Ma et al.,2025 (https://arxiv.org/html/2605.26670#bib.bib19); Fang et al.,2025 (https://arxiv.org/html/2605.26670#bib.bib6); Hu et al.,2024 (https://arxiv.org/html/2605.26670#bib.bib13))。这一方向的一个显著进展是AlphaEdit (Fang et al.,2025 (https://arxiv.org/html/2605.26670#bib.bib6)),它通过利用复杂的零空间投影技术实现了数千次稳定的序列编辑。形式化地,设K0\\mathbf{K}_{0}表示对应保留知识的键矩阵,P\\mathbf{P}是到其左零空间的正交投影器。在编辑步骤tt,(Kt,Vt)(\\mathbf{K}_{t},\\mathbf{V}_{t})表示与新注入知识相关的键值对。我们还定义K1:t−1:=[K1∣⋯∣Kt−1]\\mathbf{K}_{1:t-1}:=[\\mathbf{K}_{1}\\mid\\cdots\\mid\\mathbf{K}_{t-1}]为所有先前编辑键的拼接,当前编辑的残差为Rt:=Vt−Wt−1Kt\\mathbf{R}_{t}:=\\mathbf{V}_{t}-\\mathbf{W}_{t-1}\\mathbf{K}_{t},其中Wt−1\\mathbf{W}_{t-1}表示步骤tt之前的模型参数。在这种表示下,AlphaEdit通过将模型参数加性更新来执行序列编辑: Wt=Wt−1+Δt∗。\\mathbf{W}_{t}=\\mathbf{W}_{t-1}+\\mathbf{\\Delta}_{t}^{*}。(1) 在每个步骤tt,更新Δt\\mathbf{\\Delta}_{t}以闭式形式计算: Δt∗=RtKt⊤P(K1:t−1K1:t−1⊤P+KtKt⊤P+I)−1。\\mathbf{\\Delta}_{t}^{*}=\\mathbf{R}_{t}\\mathbf{K}_{t}^{\\top}\\mathbf{P}\\Big(\\mathbf{K}_{1:t-1}\\mathbf{K}_{1:t-1}^{\\top}\\mathbf{P}+\\mathbf{K}_{t}\\mathbf{K}_{t}^{\\top}\\mathbf{P}+\\mathbf{I}\\Big)^{-1}。(2) 我们采用这种统一表示来重新审视AlphaEdit的经验成功,并分析实现稳定序列模型编辑的机制。 ## 3 通往成功序列编辑的线索 在本节中,我们旨在解决核心问题:是什么从根本上实现了稳定的序列模型编辑?我们首先提出一个新的序列编辑任务,以反驳AlphaEdit的优越性能主要源自零空间投影的说法。相反,我们建立了一次编辑(OTE)与正确纳入过去编辑约束的序列编辑(SE)之间的理论等价性,并将其确定为编辑稳定性的核心因素。基于这一结果,我们进一步将OTE–SE等价性推广到更广泛的公式,并分析不同正则化策略在序列编辑中的必要性和影响。 ### 3.1 AlphaEdit中零空间投影的实际有效性(RQ1) ##### 零空间投影的经验剖析。为了批判性地评估零空间投影在序列知识编辑中的作用,我们引入了一个称为*记忆最新*的新设置。在此场景中,模型只需保留当前编辑步骤引入的知识,无需保留之前步骤的信息。形式化地,在每个步骤tt,我们考虑以下优化问题: Δt∗=argminΔt‖(Wt−1+Δt)[K0∣Kt]−[V0∣Vt]‖F2,\\mathbf{\\Delta}^{*}_{t}=\\arg\\min_{\\mathbf{\\Delta}_{t}}\\left\\|(\\mathbf{W}_{t-1}+\\mathbf{\\Delta}_{t})[\\mathbf{K}_{0}\\mid\\mathbf{K}_{t}]-[\\mathbf{V}_{0}\\mid\\mathbf{V}_{t}]\\right\\|_{F}^{2},其中(K0,V0)(\\mathbf{K}_{0},\\mathbf{V}_{0})表示保留的知识,(Kt,Vt)(\\mathbf{K}_{t},\\mathbf{V}_{t})对应步骤tt新编辑的事实。遵循AlphaEdit的核心原则,我们纳入一个相对于K0\\mathbf{K}_{0}定义的零空间投影器P\\mathbf{P}来约束更新,得出更新规则: Δt∗=RtKt⊤P(KtKt⊤P+I)−1。\\mathbf{\\Delta}_{t}^{*}=\\mathbf{R}_{t}\\mathbf{K}_{t}^{\\top}\\mathbf{P}\\big(\\mathbf{K}_{t}\\mathbf{K}_{t}^{\\top}\\mathbf{P}+\\mathbf{I}\\big)^{-1}。(3) 如果零空间投影确实是实现稳定序列编辑的关键机制,那么可以预期这一公式在“记忆最新”任务中能够可靠运行。然而,经验结果恰恰相反:当在Counterfact数据集 (Meng et al.,2022 (https://arxiv.org/html/2605.26670#bib.bib20)) 上使用LLaMA-3 (AI@Meta,2024 (https://arxiv.org/html/2605.26670#bib.bib1)) 应用时,...相似文章
重新审视大语言模型中基于参数的知识编辑:理论极限与实证证据
本文对LLMs中基于参数的知识编辑进行了理论分析,揭示了局部编辑如何导致全局推理崩溃,并提供了检索方法优于参数编辑方法的实证证据。
HoReN:用于大规模序列模型编辑的归一化Hopfield检索
本文介绍了HoReN,这是一种参数保留的模型编辑方法,使用归一化Hopfield检索来处理对大型语言模型的大规模序列更新。它解决了知识积累和路由挑战的问题,在50,000次序列编辑上展示了稳定的性能,而先前的方法在这种情况下性能会退化。
大语言模型不确定性中的人类对齐、校准与激活模式
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。
大语言模型顺序后训练中的表征坍塌
本文研究了大型语言模型在顺序后训练中的表征坍塌现象,表明重复的适应阶段会压缩内部表征,降低可塑性和域外泛化能力。作者提出了轻量级干预措施,在不牺牲行为增益的前提下保留未来的可学习性。
大型语言模型能否对检索到的信息保持审慎态度?
本文研究了大型语言模型如何适应检索信息的确定程度,指出了其在处理不确定性方面的系统性局限。论文提出了一种交互策略,在不修改模型权重的前提下,将顺从错误降低了 25%。