标签
本文提出ST-Merge,一种可操控的模型合并框架,利用门控交叉注意力机制自适应地调节多语言模型和推理模型的贡献,在涵盖21种语言的多语言推理基准测试中优于固定合并方法。
本文识别了预训练模型中的“承重墙”维度,这些维度保留了模型合并中任务向量未完全捕获的任务特定知识,并提出了PACT(PreserveAnchoredCores)来保留这些核心,在多个基准测试中实现了最先进的性能。
本文研究了合并RLVR模型中的“稀疏性诅咒”,发现稀疏更新导致近乎正交的参数方向,阻碍了聚合,并提出了SAR-Merging方法,该方法利用Fisher信息和稀疏化来解决冲突,提高在数学和编程任务上的合并性能。
巴西一名市政员工声称发现了一种能让LLM微调速度提升1000倍的方法,不过分析表明,最终得到的模型Rio 3.5本质上是现有开源模型Nex N2 Pro和Qwen 3.5的混合体。
本文研究了从有限的已见语言对学到的代码切换ASR能力是否可以通过模型合并和域泛化方法泛化到未见过的语言对,结果发现只有有限的迁移。
本文提出了一种新的模型合并框架,将问题转化为关于残差更新的凸二次规划,以最小化平方输出的校准目标。该框架涵盖现有的启发式方法,并提供了一种闭式诊断指标来预测合并质量,在语言和视觉基准测试中持续取得改进。
本文发现在 LLM 预训练轨迹中存在 Rank-1 子空间现象,并提出 Extra-Merge,一种无需训练的策略,沿该子空间外推以最小化损失,在 GPT-2 和 LLaMA 系列模型(最高 2B 参数)上实现了零样本准确率的一致提升。
本文介绍了Spectral Souping,这是一种通过发现通用谱表示来高效对齐LLM与个体用户偏好的框架,该表示能在推理时合并专门策略,无需昂贵的重新训练。
本文系统研究了跨模态技能注入,将领域专家大语言模型融入视觉语言模型以激发新兴多模态能力。评估了不同场景(指令遵循、跨语言、数学推理)、融合方法(TA、DARE等)及超参数,发现TA和DARE在除数学推理外表现良好。
本文介绍了E-PMQ,一种专家引导的合并后量化框架,解决了合并和量化带来的联合偏差,在CLIP-ViT和FLAN-T5等多任务合并模型上取得了显著的精度提升。
介绍贝叶斯模型合并(BMM),这是一个即插即用的双层优化框架,用于将多个任务特定的专家模型合并为一个单一模型,在视觉和语言基准测试上实现了最先进的性能。
Darwin Family 是一个无需训练的框架,通过无梯度的权重空间重组实现大语言模型的进化合并,在不额外训练的情况下达到强大的推理性能。该方法引入了MRI信任融合和跨架构育种,用于组合异构模型。
FeatCal是一种校准方法,通过逐层权重更新(无需梯度下降)来缩小后合并模型的性能差距,在CLIP和GLUE基准测试上以高样本效率取得了优异结果。
本文建立了语言模型合并的实证扩展定律,确定了模型规模、专家数量与性能之间的幂律关系,从而能够为最佳模型组合提供预测性规划。
本研究探讨了任务几何如何影响大模型的持续后训练,识别出“几何冲突”是导致遗忘的原因,也是控制更新整合的机制。作者提出了一种无需数据的方法——几何冲突 Wasserstein 合并(GCWM),该方法在各种规模的模型中均能提升保留率和性能。
本文提出即插即用正则项 OrthoReg,通过在微调阶段强制权重正交,无需额外计算即可提升任务算术与模型融合效果。
# 论文页 - B空间拥挤:为LoRA融合校准共享方向 来源:[https://huggingface.co/papers/2604.16826](https://huggingface.co/papers/2604.16826) 发布于4月18日 · 由[https://huggingface.co/yixuantt](https://huggingface.co/yixuantt)提交 [](https://huggingface.co/yixuantt) [yixuan](https://huggingface.co/yixuantt) 于4月21日上传 ## 摘要 通过校准共享方向,可提升LoRA适配器融合性能。