标签
介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。
作者提出了两种架构,即内部KV-Sphere架构(IKSA)和背景微调(BMFT),使得LLMs能够从个人互动中持续学习,无需GPU且无灾难性遗忘。
MixSD 提出了一种面向语言模型知识注入的自蒸馏方法,该方法将监督信号与模型自身的原生分布对齐,从而减少微调过程中的灾难性遗忘。它能够实现近乎完美的记忆,同时保留高达 100% 的基础能力,远超标准 SFT。
本文提出使用基于语义奖励的强化学习(通过GRPO)来将LLM扩展到低资源语言,避免了典型的灾难性遗忘对齐代价,展示了相比监督微调更好的语义质量和迁移性。
该论文提出了Slice,一种基于梯度手术的LoRA适配器初始化方法,用于持续学习,通过调和当前任务和过去任务的冲突梯度来减少灾难性遗忘,实现了更好的稳定性-可塑性权衡。
本文表明,将后训练数据混合到预训练中(早期暴露)可以提高模型在后续微调后保留能力的鲁棒性,挑战了即时后训练性能预测保留的观点。对135M和1B模型的受控实验表明,早期暴露一致地改善了上游保留和下游性能之间的权衡。
Google 研究人员引入了 Nested Learning,这是一种新的架构,通过将模型视为嵌套优化问题来取代 Transformer,解决了灾难性遗忘问题,并实现了 100% 的长上下文记忆稳定性。
本文提出了一种用于大语言模型的快慢训练框架,该框架结合参数更新与上下文优化,以提高样本效率并减少持续学习过程中的灾难性遗忘。
一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。
ORBIT提出了一种方法,通过跟踪参数距离并使用权重平均,缓解了为生成式检索微调的大语言模型中的灾难性遗忘,优于常见的持续学习基线。
本文提出保留感知策略优化(RaPO),通过强化微调缓解视觉连续学习中的灾难性遗忘。RaPO采用轨迹级奖励塑形和跨任务优势归一化,缩小了类增量学习和域增量学习中强化微调与监督微调之间的差距。
本研究探讨了任务几何如何影响大模型的持续后训练,识别出“几何冲突”是导致遗忘的原因,也是控制更新整合的机制。作者提出了一种无需数据的方法——几何冲突 Wasserstein 合并(GCWM),该方法在各种规模的模型中均能提升保留率和性能。
本文针对顺序训练的早退出神经网络中的灾难性遗忘问题,提出了两种分别基于弹性权重巩固(Elastic Weight Consolidation)和无遗忘学习(Learning without Forgetting)的方法,旨在在添加新退出点的同时保留早期退出点的性能。
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。
GeoStack 引入了一种几何框架,用于在视觉语言模型中组合独立训练的领域专家,而不会出现灾难性遗忘,实现了常数时间推理,并将几何误差降低了10倍。
JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。
本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。
本文介绍了MMOT,一种基于最优传输理论的在线混合模型学习框架,通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略,用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。