标签
本文首次系统性地分析了基于轨迹的数据归因方法的误差来源,指出优化器不匹配是主要误差,提出了AdamW-influence来解决该问题,并通过K步前瞻框架提供了数据选择的实用指南。
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。