catastrophic-forgetting

#catastrophic-forgetting

自蒸馏实现持续学习 [pdf]

Hacker News Top ↗ · 2026-05-17 缓存

介绍了自蒸馏微调（SDFT），一种通过示范实现同策略学习的方法，能够在不发生灾难性遗忘的情况下实现持续学习，性能优于监督微调。

0 人收藏 0 人点赞

#catastrophic-forgetting

无需GPU的LLMs个人持续学习——立场论文[OC]

Reddit r/AI_Agents ↗ · 2026-05-16

作者提出了两种架构，即内部KV-Sphere架构（IKSA）和背景微调（BMFT），使得LLMs能够从个人互动中持续学习，无需GPU且无灾难性遗忘。

0 人收藏 0 人点赞

#catastrophic-forgetting

MixSD：混合上下文自蒸馏知识注入

Hugging Face Daily Papers ↗ · 2026-05-16 缓存

MixSD 提出了一种面向语言模型知识注入的自蒸馏方法，该方法将监督信号与模型自身的原生分布对齐，从而减少微调过程中的灾难性遗忘。它能够实现近乎完美的记忆，同时保留高达 100% 的基础能力，远超标准 SFT。

0 人收藏 0 人点赞

#catastrophic-forgetting

基于语义奖励的强化学习实现低资源语言扩展而无对齐代价

arXiv cs.CL ↗ · 2026-05-15 缓存

本文提出使用基于语义奖励的强化学习（通过GRPO）来将LLM扩展到低资源语言，避免了典型的灾难性遗忘对齐代价，展示了相比监督微调更好的语义质量和迁移性。

0 人收藏 0 人点赞

#catastrophic-forgetting

通过梯度手术的持续学习低秩适配器初始化

arXiv cs.LG ↗ · 2026-05-14 缓存

该论文提出了Slice，一种基于梯度手术的LoRA适配器初始化方法，用于持续学习，通过调和当前任务和过去任务的冲突梯度来减少灾难性遗忘，实现了更好的稳定性-可塑性权衡。

0 人收藏 0 人点赞

#catastrophic-forgetting

早期数据暴露提高后续微调的鲁棒性

arXiv cs.LG ↗ · 2026-05-14 缓存

本文表明，将后训练数据混合到预训练中（早期暴露）可以提高模型在后续微调后保留能力的鲁棒性，挑战了即时后训练性能预测保留的观点。对135M和1B模型的受控实验表明，早期暴露一致地改善了上游保留和下游性能之间的权衡。

0 人收藏 0 人点赞

#catastrophic-forgetting

@HowToAI_: Google 悄悄发布了研究人员所称的“Attention Is All You Need V2”。这标志着 Transformer… 的终结。

X AI KOLs Timeline ↗ · 2026-05-13

Google 研究人员引入了 Nested Learning，这是一种新的架构，通过将模型视为嵌套优化问题来取代 Transformer，解决了灾难性遗忘问题，并实现了 100% 的长上下文记忆稳定性。

0 人收藏 0 人点赞

#catastrophic-forgetting

快慢学习：迈向持续适应的大语言模型 [R]

Reddit r/MachineLearning ↗ · 2026-05-13

本文提出了一种用于大语言模型的快慢训练框架，该框架结合参数更新与上下文优化，以提高样本效率并减少持续学习过程中的灾难性遗忘。

0 人收藏 0 人点赞

#catastrophic-forgetting

学习，快与慢：走向持续适应的LLMs

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

一种针对LLMs的快慢学习框架，将固定的慢权重与优化的快上下文权重相结合，在持续学习场景中实现了高达3倍的样本效率提升，并减少了灾难性遗忘。

0 人收藏 0 人点赞

#catastrophic-forgetting

ORBIT：通过原点调控合并保留GenRetrieval中的基础语言能力

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

ORBIT提出了一种方法，通过跟踪参数距离并使用权重平均，缓解了为生成式检索微调的大语言模型中的灾难性遗忘，优于常见的持续学习基线。

0 人收藏 0 人点赞

#catastrophic-forgetting

利用强化微调克服视觉连续学习中的灾难性遗忘

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

本文提出保留感知策略优化（RaPO），通过强化微调缓解视觉连续学习中的灾难性遗忘。RaPO采用轨迹级奖励塑形和跨任务优势归一化，缩小了类增量学习和域增量学习中强化微调与监督微调之间的差距。

0 人收藏 0 人点赞

#catastrophic-forgetting

几何冲突：解释并控制大模型持续后训练中的遗忘

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

本研究探讨了任务几何如何影响大模型的持续后训练，识别出“几何冲突”是导致遗忘的原因，也是控制更新整合的机制。作者提出了一种无需数据的方法——几何冲突 Wasserstein 合并（GCWM），该方法在各种规模的模型中均能提升保留率和性能。

0 人收藏 0 人点赞

#catastrophic-forgetting

在顺序训练的早退出神经网络中平衡稳定性与可塑性

arXiv cs.LG ↗ · 2026-05-08 缓存

本文针对顺序训练的早退出神经网络中的灾难性遗忘问题，提出了两种分别基于弹性权重巩固（Elastic Weight Consolidation）和无遗忘学习（Learning without Forgetting）的方法，旨在在添加新退出点的同时保留早期退出点的性能。

0 人收藏 0 人点赞

#catastrophic-forgetting

面向大型语言模型归因引导的持续学习

arXiv cs.LG ↗ · 2026-05-08 缓存

本文提出了一种面向大型语言模型的归因引导持续微调框架，该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度，在保持新任务性能的同时缓解了灾难性遗忘。

0 人收藏 0 人点赞

#catastrophic-forgetting

GeoStack：一种用于VLMs中拟阿贝尔知识组合的框架

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

GeoStack 引入了一种几何框架，用于在视觉语言模型中组合独立训练的领域专家，而不会出现灾难性遗忘，实现了常数时间推理，并将几何误差降低了10倍。

0 人收藏 0 人点赞

#catastrophic-forgetting

JumpLoRA：大语言模型持续学习的稀疏适配器

arXiv cs.CL ↗ · 2026-04-20 缓存

JumpLoRA 引入了一个新颖的稀疏适配器框架，用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法，并超越了 ELLA 等最先进的持续学习方法。

0 人收藏 0 人点赞

#catastrophic-forgetting

自蒸馏作为大语言模型的性能恢复机制：对抗压缩和灾难性遗忘

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了自蒸馏微调（SDFT）作为大语言模型性能恢复机制，用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐（CKA）提供了理论证明，表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐，从而有效恢复丧失的能力。

0 人收藏 0 人点赞

#catastrophic-forgetting

一个基于最优传输理论的在线增量学习潜在空间培育方法

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

本文介绍了MMOT，一种基于最优传输理论的在线混合模型学习框架，通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略，用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。

0 人收藏 0 人点赞

catastrophic-forgetting

提交意见反馈