标签
本研究探讨了任务几何如何影响大模型的持续后训练,识别出“几何冲突”是导致遗忘的原因,也是控制更新整合的机制。作者提出了一种无需数据的方法——几何冲突 Wasserstein 合并(GCWM),该方法在各种规模的模型中均能提升保留率和性能。