理解并强制任务算术中的权重解耦
摘要
本文提出即插即用正则项 OrthoReg,通过在微调阶段强制权重正交,无需额外计算即可提升任务算术与模型融合效果。
查看缓存全文
缓存时间: 2026/04/22 10:35
论文页面 - 理解并强化任务算术中的权重解耦
来源:https://huggingface.co/papers/2604.17078
大家好!🤗 我们非常激动地分享刚刚被 CVPR 2026 接收的最新工作:《理解并强化任务算术中的权重解耦》。
如果你对模型合并和任务算术感兴趣,这里有一份快速导读,告诉你我们做了什么以及怎么用!
💡 核心问题:任务算术为什么有效?
虽然通过加减“任务向量”来编辑模型优雅且无需再训练,但其内在机制一直成谜。我们从理论上证明:任务-特征特化(TFS) 是权重解耦的充分条件。更重要的是,TFS 会自然引出一种可观测的几何性质:权重向量正交性。
🛠️ 我们的方案:OrthoReg
由于直接约束抽象的特征特化难以实现,我们提出 OrthoReg——一个简单、即插即用的正则项,可直接加到标准微调损失里。它在微调过程中主动对权重更新 ΔW 按列施加正交约束。
损失函数极其简洁:
L = Ltask + λ·Σl‖(ΔW(l))⊤ΔW(l) − I‖F2
📊 主要结果
- 一致提升:在 ViT-B-32、ViT-B-16、ViT-L-14 上,显著改善多种任务算术基线(Non-linear FT、TTA、ATT-FT、LoRA)的性能。
- 高效轻量:达到 Tangent Task Arithmetic(TTA)的解耦效果,却无需承担庞大的雅可比矩阵计算开销。
- 更干净的遗忘:大幅提升“任务取反”(让模型遗忘特定任务)能力,同时对通用能力副作用极小。
🔗 资源
我们坚信开放科学,已公开全部成果:
- 💻 GitHub 仓库:RL-MIND/OrthoReg(https://github.com/RL-MIND/OrthoReg)
- 🤗 模型检查点:RL-MIND/OrthoReg_checkpoints(https://huggingface.co/RL-MIND/OrthoReg_checkpoints)
(8 个任务、6 种模式的所有微调检查点都已上传至 Hugging Face!)
期待听到你的想法、反馈或任何问题,欢迎在下方留言!👇
相似文章
循环权重空间中的任务受限对称性
本文通过使用有序实Schur坐标来识别保持任务性能的结构消融,研究循环神经网络中的功能冗余,发现任务受限对称性在不同任务和训练方案之间存在差异。
Grokking Transformer中的权重衰减机制:廉价在线诊断
本文研究了权重衰减如何作为控制参数,使在模算术上训练的Transformer在记忆与泛化之间发生转变,并引入了两种基于注意力激活的廉价在线诊断指标,用以追踪这些动态。
离线推理训练中的权重空间几何
本文研究了不同的离线强化学习损失函数(RFT、RIFT、DFT、Offline GRPO、DPO)在推理蒸馏中是否会在小型语言模型中产生机制上不同的权重更新。使用相同的数学展开和受控设置(Qwen3-4B 和仅注意力的 LoRA),他们发现 SFT、RFT 和 RIFT 的权重增量几乎共线,而 DPO 位于一个近乎正交的子空间中,并取得了最高的准确率。
LoRA 与权重衰减 (2023)
这篇博客文章探讨了LoRA与权重衰减的相互作用如何导致与全参微调不同的优化目标,其中权重被正则化到初始模型而不是零。它解释了对实践者的影响。
分解大语言模型的基本能力:在多任务指令微调中缓解跨任务干扰
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。