gradient-conflict

标签

Cards List
#gradient-conflict

多域强化学习中跨域干扰与恢复的局部扰动理论

Hugging Face Daily Papers · 2026-06-01 缓存

本文提出了一种局部扰动理论,用于解释多域强化学习中的跨域干扰现象。研究表明,干扰主要由低维冲突子空间中的二阶损伤项驱动,并证明短暂的域刷新或无需训练的回滚操作能够选择性地恢复丢失的能力。

0 人收藏 0 人点赞
#gradient-conflict

去中心化指令微调:冲突感知拆分与权重合并

Hugging Face Daily Papers · 2026-06-01 缓存

MERIT 引入了冲突感知拆分和权重合并,用于去中心化指令微调,实现了无需跨分区梯度同步的性能提升。

0 人收藏 0 人点赞
#gradient-conflict

面向组合奖励的流模型冲突感知加性引导

arXiv cs.AI · 2026-05-22 缓存

本文识别了组合奖励下引导流模型中的流形外漂移,并提出冲突感知加性引导(CAR),这是一种轻量级方法,可动态解决梯度冲突,从而无需重新训练即可提升生成保真度。

0 人收藏 0 人点赞
#gradient-conflict

DualOptim+:桥接共享与解耦优化器状态以改进大型语言模型中的机器遗忘

arXiv cs.LG · 2026-05-22 缓存

介绍了DualOptim+,一个面向LLM遗忘的优化框架,它使用共享基态和解耦增量态来平衡遗忘与保留目标,并提供量化变体以减少内存占用。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈