几何冲突:解释并控制大模型持续后训练中的遗忘

Hugging Face Daily Papers 论文

摘要

本研究探讨了任务几何如何影响大模型的持续后训练,识别出“几何冲突”是导致遗忘的原因,也是控制更新整合的机制。作者提出了一种无需数据的方法——几何冲突 Wasserstein 合并(GCWM),该方法在各种规模的模型中均能提升保留率和性能。

持续后训练旨在为大语言模型(LLMs)扩展新知识、技能和行为,但目前尚不清楚何时顺序更新能够实现能力迁移,何时又会导致灾难性遗忘。现有方法通过顺序微调、重放、正则化或模型合并来缓解遗忘,但对于判断引入新更新何时有益或有害,提供的标准有限。在本工作中,我们通过三个问题研究大模型的持续后训练:什么驱动了遗忘?顺序习得的能力何时会发生迁移或干扰?如何利用兼容性来控制更新整合?我们通过任务几何来回答这些问题:我们用参数更新来表示每个后训练任务,并研究由更新引起的协方差几何。我们的核心发现是:遗忘可以被视为一种状态相关的更新整合失败,当任务引起的协方差几何与演化中的模型状态几何不一致时,就会产生遗忘。当顺序更新与由先前更新塑造的模型状态保持兼容时,它们会发生迁移;当状态相关的几何冲突变得严重时,它们会产生干扰。受此发现的启发,我们提出了几何冲突 Wasserstein 合并(GCWM),这是一种无需数据的更新整合方法,它通过高斯 Wasserstein 质心构建共享的 Wasserstein 度量,并利用几何冲突来门控几何感知校正。在 Qwen3 0.6B 到 14B 的领域持续和能力持续设置中,GCWM 始终优于无需数据的基线,在没有重放数据的情况下提高了保留率和最终性能。这些结果将几何冲突确定为既作为遗忘的解释信号,又作为大模型持续后训练的实际控制信号。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 02:49

论文页面 - 几何冲突:解释和控制大型语言模型持续后训练中的遗忘

来源: https://huggingface.co/papers/2605.09608 作者:

,

,

,

,

,

,

,

,

,

摘要

本研究探讨了任务几何结构如何影响大型语言模型(LLM)的持续后训练(Continual post-training),识别出几何冲突(geometry conflict)既是遗忘的原因,也是控制更新整合的机制。

持续后训练旨在扩展大型语言模型(LLMs)的新知识、技能和行为,但目前尚不清楚何时顺序更新能够实现能力迁移,何时会导致灾难性遗忘(catastrophic forgetting)。现有方法通过顺序微调、重放、正则化或模型合并(model merging)来缓解遗忘,但缺乏判断何时引入新更新有益或有害的明确标准。在本工作中,我们通过三个问题研究 LLM 的持续后训练:是什么驱动了遗忘?何时顺序习得的能力会发生迁移或干扰?如何利用兼容性来控制更新整合?我们通过任务几何(task geometry)来回答这些问题:我们将每个后训练任务表示为其参数更新(parameter update),并研究该更新所诱导的协方差几何结构(covariance geometry)。我们的核心发现是:遗忘可以被视为一种相对于状态的更新整合(update-integration)失败,它产生于任务诱导的协方差几何结构与演化中模型状态的几何结构不一致时。当顺序更新与由先前更新塑造的模型状态保持兼容时,能力会发生迁移;而当相对于状态的几何冲突(state-relative geometry conflict)较高时,能力会发生干扰。基于这一发现,我们提出了几何冲突 Wasserstein 合并(GCWM),这是一种无数据的更新整合方法,它通过高斯 Wasserstein 重心(Gaussian Wasserstein barycenters)构建共享的 Wasserstein 度量(Wasserstein metric),并利用几何冲突来门控几何感知的校正。在 Qwen3 0.6B 至 14B 的领域持续和能力持续设置上,GCWM 始终优于无数据基线,在无重放数据的情况下提高了保留率和最终性能。这些结果将几何冲突确定为解释遗忘的信号,也是 LLM 持续后训练的实用控制信号。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09608) 查看 PDF (https://arxiv.org/pdf/2605.09608) GitHub (https://github.com/InfiXAI/Merging-Scaling-Law) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.09608)

在您的 Agent 中获取此论文:

hf papers read 2605\.09608

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.09608 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.09608 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.09608 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

大语言模型几何表示鲁棒性评测

arXiv cs.CL

# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani

LLM持续更新时,有用记忆会变得不可靠

Hugging Face Daily Papers

一项研究发现,在基于LLM的智能体系统中持续更新整合记忆会降低性能,而保留原始情节轨迹更为可靠。在ARC-AGI上的实验显示,即使GPT-5.4在整合后也更容易失败。

自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘

arXiv cs.CL

本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。