model-merging

标签

Cards List
#model-merging

Sakana Fugu

Product Hunt · 3天前

Sakana Fugu 是一个新工具,能够将多个AI模型组合成一个,受“一个模型统领所有”概念的启发。

0 人收藏 0 人点赞
#model-merging

通过可操控模型合并增强多语言推理

arXiv cs.CL · 2026-06-18 缓存

本文提出ST-Merge,一种可操控的模型合并框架,利用门控交叉注意力机制自适应地调节多语言模型和推理模型的贡献,在涵盖21种语言的多语言推理基准测试中优于固定合并方法。

0 人收藏 0 人点赞
#model-merging

PACT:在任务向量中保留锚定核心以进行模型合并

arXiv cs.LG · 2026-06-18 缓存

本文识别了预训练模型中的“承重墙”维度,这些维度保留了模型合并中任务向量未完全捕获的任务特定知识,并提出了PACT(PreserveAnchoredCores)来保留这些核心,在多个基准测试中实现了最先进的性能。

0 人收藏 0 人点赞
#model-merging

稀疏性诅咒:从模型合并理解RLVR模型参数空间

arXiv cs.LG · 2026-06-18 缓存

本文研究了合并RLVR模型中的“稀疏性诅咒”,发现稀疏更新导致近乎正交的参数方向,阻碍了聚合,并提出了SAR-Merging方法,该方法利用Fisher信息和稀疏化来解决冲突,提高在数学和编程任务上的合并性能。

0 人收藏 0 人点赞
#model-merging

@teortaxesTex: 天哪,巴西一名市政员工发现了一种将LLM微调速度提升1000倍的方法——用了一个有点奇怪的技巧!…

X AI KOLs Timeline · 2026-06-14 缓存

巴西一名市政员工声称发现了一种能让LLM微调速度提升1000倍的方法,不过分析表明,最终得到的模型Rio 3.5本质上是现有开源模型Nex N2 Pro和Qwen 3.5的混合体。

0 人收藏 0 人点赞
#model-merging

迈向真正多语言ASR:将代码切换ASR泛化到未见过的语言对

Hugging Face Daily Papers · 2026-06-04 缓存

本文研究了从有限的已见语言对学到的代码切换ASR能力是否可以通过模型合并和域泛化方法泛化到未见过的语言对,结果发现只有有限的迁移。

0 人收藏 0 人点赞
#model-merging

去中心化指令微调:冲突感知拆分与权重合并

Hugging Face Daily Papers · 2026-06-01 缓存

MERIT 引入了冲突感知拆分和权重合并,用于去中心化指令微调,实现了无需跨分区梯度同步的性能提升。

0 人收藏 0 人点赞
#model-merging

基于输出空间投影的模型合并

arXiv cs.LG · 2026-05-29

本文提出了一种新的模型合并框架,将问题转化为关于残差更新的凸二次规划,以最小化平方输出的校准目标。该框架涵盖现有的启发式方法,并提供了一种闭式诊断指标来预测合并质量,在语言和视觉基准测试中持续取得改进。

0 人收藏 0 人点赞
#model-merging

访问集至关重要:为可扩展权重空间模型合并预算专家读取

Hugging Face Daily Papers · 2026-05-28 缓存

本文引入了访问集的概念来预算专家读取,从而实现了可扩展的权重空间模型合并。

0 人收藏 0 人点赞
#model-merging

Extra-Merge: 追踪语言模型预训练中模型合并的 Rank-1 子空间

arXiv cs.LG · 2026-05-27 缓存

本文发现在 LLM 预训练轨迹中存在 Rank-1 子空间现象,并提出 Extra-Merge,一种无需训练的策略,沿该子空间外推以最小化损失,在 GPT-2 和 LLaMA 系列模型(最高 2B 参数)上实现了零样本准确率的一致提升。

0 人收藏 0 人点赞
#model-merging

Spectral Souping:在线偏好对齐的统一框架

arXiv cs.LG · 2026-05-21 缓存

本文介绍了Spectral Souping,这是一种通过发现通用谱表示来高效对齐LLM与个体用户偏好的框架,该表示能在推理时合并专门策略,无需昂贵的重新训练。

0 人收藏 0 人点赞
#model-merging

跨模态技能注入研究:场景、方法与超参数

arXiv cs.CL · 2026-05-20 缓存

本文系统研究了跨模态技能注入,将领域专家大语言模型融入视觉语言模型以激发新兴多模态能力。评估了不同场景(指令遵循、跨语言、数学推理)、融合方法(TA、DARE等)及超参数,发现TA和DARE在除数学推理外表现良好。

0 人收藏 0 人点赞
#model-merging

E-PMQ:专家引导的合并后量化与合并权重锚定

arXiv cs.CL · 2026-05-19 缓存

本文介绍了E-PMQ,一种专家引导的合并后量化框架,解决了合并和量化带来的联合偏差,在CLIP-ViT和FLAN-T5等多任务合并模型上取得了显著的精度提升。

0 人收藏 0 人点赞
#model-merging

贝叶斯模型合并

arXiv cs.LG · 2026-05-14 缓存

介绍贝叶斯模型合并(BMM),这是一个即插即用的双层优化框架,用于将多个任务特定的专家模型合并为一个单一模型,在视觉和语言基准测试上实现了最先进的性能。

0 人收藏 0 人点赞
#model-merging

Darwin Family:基于MRI信任加权的进化合并方法,实现语言模型推理的无训练扩展

Hugging Face Daily Papers · 2026-05-14 缓存

Darwin Family 是一个无需训练的框架,通过无梯度的权重空间重组实现大语言模型的进化合并,在不额外训练的情况下达到强大的推理性能。该方法引入了MRI信任融合和跨架构育种,用于组合异构模型。

0 人收藏 0 人点赞
#model-merging

FeatCal: 后合并模型的特征校准

Hugging Face Daily Papers · 2026-05-13 缓存

FeatCal是一种校准方法,通过逐层权重更新(无需梯度下降)来缩小后合并模型的性能差距,在CLIP和GLUE基准测试上以高样本效率取得了优异结果。

0 人收藏 0 人点赞
#model-merging

大语言模型中的模型合并扩展定律

Hugging Face Daily Papers · 2026-05-11 缓存

本文建立了语言模型合并的实证扩展定律,确定了模型规模、专家数量与性能之间的幂律关系,从而能够为最佳模型组合提供预测性规划。

0 人收藏 0 人点赞
#model-merging

几何冲突:解释并控制大模型持续后训练中的遗忘

Hugging Face Daily Papers · 2026-05-10 缓存

本研究探讨了任务几何如何影响大模型的持续后训练,识别出“几何冲突”是导致遗忘的原因,也是控制更新整合的机制。作者提出了一种无需数据的方法——几何冲突 Wasserstein 合并(GCWM),该方法在各种规模的模型中均能提升保留率和性能。

0 人收藏 0 人点赞
#model-merging

理解并强制任务算术中的权重解耦

Hugging Face Daily Papers · 2026-04-18 缓存

本文提出即插即用正则项 OrthoReg,通过在微调阶段强制权重正交,无需额外计算即可提升任务算术与模型融合效果。

0 人收藏 0 人点赞
#model-merging

B空间拥挤:为LoRA融合校准共享方向

Hugging Face Daily Papers · 2026-04-18 缓存

# 论文页 - B空间拥挤:为LoRA融合校准共享方向 来源:[https://huggingface.co/papers/2604.16826](https://huggingface.co/papers/2604.16826) 发布于4月18日 · 由[https://huggingface.co/yixuantt](https://huggingface.co/yixuantt)提交 [![](https://huggingface.co/avatars/a95c7df96dc4fb6a96193f6dd5068227.svg)](https://huggingface.co/yixuantt) [yixuan](https://huggingface.co/yixuantt) 于4月21日上传 ## 摘要 通过校准共享方向,可提升LoRA适配器融合性能。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈