weight-space

标签

Cards List
#weight-space

离线推理训练中的权重空间几何

arXiv cs.LG · 昨天 缓存

本文研究了不同的离线强化学习损失函数(RFT、RIFT、DFT、Offline GRPO、DPO)在推理蒸馏中是否会在小型语言模型中产生机制上不同的权重更新。使用相同的数学展开和受控设置(Qwen3-4B 和仅注意力的 LoRA),他们发现 SFT、RFT 和 RIFT 的权重增量几乎共线,而 DPO 位于一个近乎正交的子空间中,并取得了最高的准确率。

0 人收藏 0 人点赞
#weight-space

基于权重空间元学习的机器人策略自适应

Hugging Face Daily Papers · 2026-06-05 缓存

提出WIZARD,一种权重空间元学习框架,它从语言指令和演示视频中为冻结的VLA策略生成任务特定的LoRA参数,从而实现无需微调的高效任务自适应。

0 人收藏 0 人点赞
#weight-space

访问集至关重要:为可扩展权重空间模型合并预算专家读取

Hugging Face Daily Papers · 2026-05-28 缓存

本文引入了访问集的概念来预算专家读取,从而实现了可扩展的权重空间模型合并。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈