pre-trained-models

#pre-trained-models

PACT：在任务向量中保留锚定核心以进行模型合并

arXiv cs.LG ↗ · 昨天缓存

本文识别了预训练模型中的“承重墙”维度，这些维度保留了模型合并中任务向量未完全捕获的任务特定知识，并提出了PACT（PreserveAnchoredCores）来保留这些核心，在多个基准测试中实现了最先进的性能。

0 人收藏 0 人点赞

#pre-trained-models

arXiv cs.LG ↗ · 4天前缓存

本文提出了对LoRA的稀疏诱导适配方法，包括廉价LoRA（cLA）和链式循环变体（c³LA），并提供了理论泛化界以及实证评估，结果显示在保持竞争性性能的同时，训练时间最多减少10%，峰值GPU内存节省最多15%。

0 人收藏 0 人点赞