标签
本文识别了预训练模型中的“承重墙”维度,这些维度保留了模型合并中任务向量未完全捕获的任务特定知识,并提出了PACT(PreserveAnchoredCores)来保留这些核心,在多个基准测试中实现了最先进的性能。
本文提出了对LoRA的稀疏诱导适配方法,包括廉价LoRA(cLA)和链式循环变体(c³LA),并提供了理论泛化界以及实证评估,结果显示在保持竞争性性能的同时,训练时间最多减少10%,峰值GPU内存节省最多15%。