catastrophic-forgetting

#catastrophic-forgetting

在顺序训练的早退出神经网络中平衡稳定性与可塑性

arXiv cs.LG ↗ · 昨天缓存

本文针对顺序训练的早退出神经网络中的灾难性遗忘问题，提出了两种分别基于弹性权重巩固（Elastic Weight Consolidation）和无遗忘学习（Learning without Forgetting）的方法，旨在在添加新退出点的同时保留早期退出点的性能。

0 人收藏 0 人点赞

#catastrophic-forgetting

arXiv cs.LG ↗ · 昨天缓存

本文提出了一种面向大型语言模型的归因引导持续微调框架，该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度，在保持新任务性能的同时缓解了灾难性遗忘。

0 人收藏 0 人点赞

#catastrophic-forgetting

Hugging Face Daily Papers ↗ · 2天前缓存

GeoStack 引入了一种几何框架，用于在视觉语言模型中组合独立训练的领域专家，而不会出现灾难性遗忘，实现了常数时间推理，并将几何误差降低了10倍。

0 人收藏 0 人点赞

#catastrophic-forgetting

arXiv cs.CL ↗ · 2026-04-20 缓存

JumpLoRA 引入了一个新颖的稀疏适配器框架，用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法，并超越了 ELLA 等最先进的持续学习方法。

0 人收藏 0 人点赞

#catastrophic-forgetting

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了自蒸馏微调（SDFT）作为大语言模型性能恢复机制，用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐（CKA）提供了理论证明，表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐，从而有效恢复丧失的能力。

0 人收藏 0 人点赞

#catastrophic-forgetting

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

本文介绍了MMOT，一种基于最优传输理论的在线混合模型学习框架，通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略，用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。

0 人收藏 0 人点赞