访问集至关重要:为可扩展权重空间模型合并预算专家读取

Hugging Face Daily Papers 论文

摘要

本文引入了访问集的概念来预算专家读取,从而实现了可扩展的权重空间模型合并。

权重空间模型合并通常被形式化为对检查点的代数运算,然而在LLM规模下,限制性资源往往是必须读取的专家权重集。我们引入了MergePipe,一个预算感知的执行层,将LLM合并转化为专家访问集问题:给定一个合并操作符和一个共享权重坐标系中的检查点家族,在显式I/O预算下选择要访问的专家增量块。MergePipe对参数块进行索引,构建确定性访问计划,并通过可重放的清单执行所诱导的预算合并。该计划在构造上是预算合理的,并在完全预算下恢复全读取合并;对于固定系数的加法操作符,遗漏更新误差受遗漏增量范数的限界。在Qwen和Llama的合并工作负载上,MergePipe将专家读取I/O减少了一个数量级,并实现了高达11倍的加速。代表性预算扫掠显示,与全读取合并相比,参数偏差为O(10^{-3}),并且在下游基准上没有单调退化。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:41

论文页 - 访问集至关重要:为可扩展权值空间模型合并预算专家阅读

来源:https://huggingface.co/papers/2605.29489

在你的 agent 中获取这篇论文:

hf papers read 2605\.29489

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接到该论文

请在模型 README.md 中引用 arxiv.org/abs/2605.29489 以从该页面链接。

引用该论文的数据集0

没有数据集链接到该论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.29489 以从该页面链接。

引用该论文的 Spaces0

没有 Space 链接到该论文

请在 Space README.md 中引用 arxiv.org/abs/2605.29489 以从该页面链接。

包含该论文的合集0

没有合集包含该论文

请将该论文添加到一个合集 (https://huggingface.co/new-collection) 中以从该页面链接。

相似文章

基于输出空间投影的模型合并

arXiv cs.LG

本文提出了一种新的模型合并框架,将问题转化为关于残差更新的凸二次规划,以最小化平方输出的校准目标。该框架涵盖现有的启发式方法,并提供了一种闭式诊断指标来预测合并质量,在语言和视觉基准测试中持续取得改进。

大语言模型中的模型合并扩展定律

Hugging Face Daily Papers

本文建立了语言模型合并的实证扩展定律,确定了模型规模、专家数量与性能之间的幂律关系,从而能够为最佳模型组合提供预测性规划。

贝叶斯模型合并

arXiv cs.LG

介绍贝叶斯模型合并(BMM),这是一个即插即用的双层优化框架,用于将多个任务特定的专家模型合并为一个单一模型,在视觉和语言基准测试上实现了最先进的性能。

理解并强制任务算术中的权重解耦

Hugging Face Daily Papers

本文提出即插即用正则项 OrthoReg,通过在微调阶段强制权重正交,无需额外计算即可提升任务算术与模型融合效果。