geometry-conflict

标签

Cards List
#geometry-conflict

几何冲突:解释并控制大模型持续后训练中的遗忘

Hugging Face Daily Papers · 4天前 缓存

本研究探讨了任务几何如何影响大模型的持续后训练,识别出“几何冲突”是导致遗忘的原因,也是控制更新整合的机制。作者提出了一种无需数据的方法——几何冲突 Wasserstein 合并(GCWM),该方法在各种规模的模型中均能提升保留率和性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈