pre-trained-models

标签

Cards List
#pre-trained-models

PACT:在任务向量中保留锚定核心以进行模型合并

arXiv cs.LG · 昨天 缓存

本文识别了预训练模型中的“承重墙”维度,这些维度保留了模型合并中任务向量未完全捕获的任务特定知识,并提出了PACT(PreserveAnchoredCores)来保留这些核心,在多个基准测试中实现了最先进的性能。

0 人收藏 0 人点赞
#pre-trained-models

超越LoRA:稀疏诱导的适配是否更好?

arXiv cs.LG · 4天前 缓存

本文提出了对LoRA的稀疏诱导适配方法,包括廉价LoRA(cLA)和链式循环变体(c³LA),并提供了理论泛化界以及实证评估,结果显示在保持竞争性性能的同时,训练时间最多减少10%,峰值GPU内存节省最多15%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈