weight-space

#weight-space

离线推理训练中的权重空间几何

arXiv cs.LG ↗ · 昨天缓存

本文研究了不同的离线强化学习损失函数（RFT、RIFT、DFT、Offline GRPO、DPO）在推理蒸馏中是否会在小型语言模型中产生机制上不同的权重更新。使用相同的数学展开和受控设置（Qwen3-4B 和仅注意力的 LoRA），他们发现 SFT、RFT 和 RIFT 的权重增量几乎共线，而 DPO 位于一个近乎正交的子空间中，并取得了最高的准确率。

0 人收藏 0 人点赞

#weight-space

基于权重空间元学习的机器人策略自适应

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

提出WIZARD，一种权重空间元学习框架，它从语言指令和演示视频中为冻结的VLA策略生成任务特定的LoRA参数，从而实现无需微调的高效任务自适应。

0 人收藏 0 人点赞

#weight-space

访问集至关重要：为可扩展权重空间模型合并预算专家读取

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文引入了访问集的概念来预算专家读取，从而实现了可扩展的权重空间模型合并。

0 人收藏 0 人点赞

weight-space

离线推理训练中的权重空间几何

基于权重空间元学习的机器人策略自适应

访问集至关重要：为可扩展权重空间模型合并预算专家读取

提交意见反馈