标签
本文研究了不同的离线强化学习损失函数(RFT、RIFT、DFT、Offline GRPO、DPO)在推理蒸馏中是否会在小型语言模型中产生机制上不同的权重更新。使用相同的数学展开和受控设置(Qwen3-4B 和仅注意力的 LoRA),他们发现 SFT、RFT 和 RIFT 的权重增量几乎共线,而 DPO 位于一个近乎正交的子空间中,并取得了最高的准确率。
提出WIZARD,一种权重空间元学习框架,它从语言指令和演示视频中为冻结的VLA策略生成任务特定的LoRA参数,从而实现无需微调的高效任务自适应。