标签
本文提出了一种局部扰动理论,用于解释多域强化学习中的跨域干扰现象。研究表明,干扰主要由低维冲突子空间中的二阶损伤项驱动,并证明短暂的域刷新或无需训练的回滚操作能够选择性地恢复丢失的能力。
MERIT 引入了冲突感知拆分和权重合并,用于去中心化指令微调,实现了无需跨分区梯度同步的性能提升。
本文识别了组合奖励下引导流模型中的流形外漂移,并提出冲突感知加性引导(CAR),这是一种轻量级方法,可动态解决梯度冲突,从而无需重新训练即可提升生成保真度。
介绍了DualOptim+,一个面向LLM遗忘的优化框架,它使用共享基态和解耦增量态来平衡遗忘与保留目标,并提供量化变体以减少内存占用。