parameter-space

标签

Cards List
#parameter-space

模型合并作为微调参数空间中的概率推理

arXiv cs.LG · 22小时前 缓存

本文将模型合并视为在专家乘积场景下的概率推断,表明现有方法是其特例,并提出一种重尾柯西专家设计,能更准确地捕捉实际残差行为,在多个任务和架构上相对于现有最优基线取得了显著改进。

0 人收藏 0 人点赞
#parameter-space

稀疏性诅咒:从模型合并理解RLVR模型参数空间

arXiv cs.LG · 2026-06-18 缓存

本文研究了合并RLVR模型中的“稀疏性诅咒”,发现稀疏更新导致近乎正交的参数方向,阻碍了聚合,并提出了SAR-Merging方法,该方法利用Fisher信息和稀疏化来解决冲突,提高在数学和编程任务上的合并性能。

0 人收藏 0 人点赞
#parameter-space

论同策略蒸馏的几何结构

Hugging Face Daily Papers · 2026-06-05 缓存

本文刻画了大语言模型中同策略蒸馏(OPD)独特的参数空间动力学,表明其具有松弛的非主方向更新和子空间锁定特性,从而与监督微调和基于可验证奖励的强化学习区分开来。

0 人收藏 0 人点赞
#parameter-space

CapVector:面向视觉-语言-动作模型的参数空间可迁移能力向量学习

Hugging Face Daily Papers · 2026-05-11 缓存

本文介绍了 CapVector,这是一种将辅助训练目标与视觉-语言-动作模型的标准监督微调解耦的方法。通过提取可迁移能力向量并引入正交正则化,该方法在显著提升模型性能与泛化能力的同时,大幅降低了计算开销。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈