利用强化微调克服视觉连续学习中的灾难性遗忘
摘要
本文提出保留感知策略优化(RaPO),通过强化微调缓解视觉连续学习中的灾难性遗忘。RaPO采用轨迹级奖励塑形和跨任务优势归一化,缩小了类增量学习和域增量学习中强化微调与监督微调之间的差距。
查看缓存全文
缓存时间: 2026/05/20 10:37
论文页面 - 通过强化微调克服视觉持续学习中的灾难性遗忘
来源: https://huggingface.co/papers/2605.09640
摘要
强化微调在视觉持续学习中存在灾难性遗忘问题,本文通过保留感知策略优化(Retention-aware Policy Optimization)来解决,该方法使用轨迹级奖励塑造和跨任务优势归一化。
近期研究表明,强化微调 (https://huggingface.co/papers?q=Reinforcement%20Fine-Tuning) (RFT) 本质上比监督微调 (https://huggingface.co/papers?q=Supervised%20Fine-Tuning) (SFT) 对灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting) 更具鲁棒性。然而,RFT(例如 GRPO (https://huggingface.co/papers?q=GRPO))能否有效克服具有挑战性的视觉持续学习场景(如类增量学习 (https://huggingface.co/papers?q=class-incremental%20learning) (CIL) 和域增量学习 (https://huggingface.co/papers?q=domain-incremental%20learning) (DIL))中的遗忘,仍是一个开放问题。通过一项初步研究,我们确认虽然 RFT 始终优于 SFT,但它仍然遭受不可忽视的遗忘。我们通过实证将这一瓶颈追溯到轨迹级漂移不可知性 (https://huggingface.co/papers?q=Trajectory-level%20Drift%20Agnosticism):在获得相同任务奖励的候选 rollout 中,与前一任务策略的 KL 散度差异显著,这与跨连续任务的灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting) 高度相关。基于这一洞察,我们提出保留感知策略优化 (https://huggingface.co/papers?q=Retention-aware%20Policy%20Optimization) (RaPO),一种简单而有效的 RFT 方法,通过轨迹级奖励塑造 (https://huggingface.co/papers?q=trajectory-level%20reward%20shaping) 显式缓解遗忘。具体来说,RaPO 包含两个核心组件:(1) 保留奖励 (Retention Reward),将轨迹级分布漂移转换为连续奖励信号,在每个组内优先增强保留知识的 rollout;(2) 跨任务优势归一化 (https://huggingface.co/papers?q=Cross-Task%20Advantage%20Normalization) (CTAN),在任务边界上维护奖励统计信息的持久指数移动平均,以稳定持续学习期间的优化进程。利用多模态大语言模型 (MLLMs) (https://huggingface.co/papers?q=MLLMs) 的自由形式文本泛化能力,我们在五种视觉持续学习设置上全面评估 RaPO。大量实验表明,RaPO 取得了领先性能,在显著减少灾难性遗忘的同时保持了良好的可塑性。据我们所知,这项工作是 RFT 在视觉持续学习中的首次系统性探索,我们希望其中提供的见解能够启发未来研究。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09640) 查看 PDF (https://arxiv.org/pdf/2605.09640) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09640)
在你的代理中获取此论文:
hf papers read 2605.09640
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.09640 以从该页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.09640 以从该页面链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.09640 以从该页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从该页面链接。
相似文章
RAFT:缓解遗忘的领域微调中的数据优化与自适应蒸馏
RAFT是一个两阶段框架,用于LLM的领域特定微调。它通过优化监督数据和使用带有自适应损失平衡的在线策略蒸馏来解决灾难性遗忘问题,在提升领域精度的同时恢复通用能力,取得了显著改进。
Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards
提出了面向纠正的策略优化(CIPO),这是对RLVR的一种扩展,它将失败轨迹转化为面向纠正的监督信号,从而在数学和代码基准测试中提升LLM的推理与纠错能力。
灾难性遗忘的机制起源:为什么RL比SFT更好地保留电路?
本文研究了LLM中灾难性遗忘的机制起源,发现强化学习比监督微调更好地保留了内部计算电路,从而减少了对先前能力的遗忘。
面向大型语言模型归因引导的持续学习
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。
Pyrecall 开源工具:检测 LLM 微调中的灾难性遗忘 [P]
Pyrecall 是一款新的开源工具,能够检测 LLM 微调中的灾难性遗忘,通过快照训练前后的技能分数,标记性能回退,并回滚 LoRA 适配器。该工具完全在本地运行,无需外部 API。