利用强化微调克服视觉连续学习中的灾难性遗忘

Hugging Face Daily Papers 论文

摘要

本文提出保留感知策略优化(RaPO),通过强化微调缓解视觉连续学习中的灾难性遗忘。RaPO采用轨迹级奖励塑形和跨任务优势归一化,缩小了类增量学习和域增量学习中强化微调与监督微调之间的差距。

最近的研究表明,强化微调(RFT)天生比监督微调(SFT)更能抵抗灾难性遗忘。然而,RFT(例如GRPO)能否在具有挑战性的视觉连续学习场景(如类增量学习(CIL)和域增量学习(DIL))中有效克服遗忘仍是一个未解决的问题。通过一项初步研究,我们确认虽然RFT始终优于SFT,但它仍然遭受不可忽视的遗忘。我们经验性地将这一瓶颈追溯到轨迹级漂移不可知性:在获得相同任务奖励的候选轨迹中,与前序任务策略的KL散度存在显著差异,这与跨顺序任务的灾难性遗忘密切相关。基于这一发现,我们提出了保留感知策略优化(RaPO),这是一种简单而有效的RFT方法,通过轨迹级奖励塑形明确缓解遗忘。具体来说,RaPO包含两个核心组件:(1)保留奖励,将轨迹级分布漂移转化为连续奖励信号,优先增强每个组内保留知识的轨迹;(2)跨任务优势归一化(CTAN),维持任务边界上奖励统计量的持久指数移动平均,以稳定连续学习中的优化进程。利用MLLMs的自由形式文本泛化能力,我们在五个视觉连续学习设置上全面评估了RaPO。大量实验表明,RaPO实现了领先性能,在保持强可塑性的同时大幅减少了灾难性遗忘。据我们所知,这项工作首次系统探索了RFT在视觉连续学习中的应用,提供的见解有望启发未来的研究。
查看原文
查看缓存全文

缓存时间: 2026/05/20 10:37

论文页面 - 通过强化微调克服视觉持续学习中的灾难性遗忘

来源: https://huggingface.co/papers/2605.09640

摘要

强化微调在视觉持续学习中存在灾难性遗忘问题,本文通过保留感知策略优化(Retention-aware Policy Optimization)来解决,该方法使用轨迹级奖励塑造和跨任务优势归一化。

近期研究表明,强化微调 (https://huggingface.co/papers?q=Reinforcement%20Fine-Tuning) (RFT) 本质上比监督微调 (https://huggingface.co/papers?q=Supervised%20Fine-Tuning) (SFT) 对灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting) 更具鲁棒性。然而,RFT(例如 GRPO (https://huggingface.co/papers?q=GRPO))能否有效克服具有挑战性的视觉持续学习场景(如类增量学习 (https://huggingface.co/papers?q=class-incremental%20learning) (CIL) 和域增量学习 (https://huggingface.co/papers?q=domain-incremental%20learning) (DIL))中的遗忘,仍是一个开放问题。通过一项初步研究,我们确认虽然 RFT 始终优于 SFT,但它仍然遭受不可忽视的遗忘。我们通过实证将这一瓶颈追溯到轨迹级漂移不可知性 (https://huggingface.co/papers?q=Trajectory-level%20Drift%20Agnosticism):在获得相同任务奖励的候选 rollout 中,与前一任务策略的 KL 散度差异显著,这与跨连续任务的灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting) 高度相关。基于这一洞察,我们提出保留感知策略优化 (https://huggingface.co/papers?q=Retention-aware%20Policy%20Optimization) (RaPO),一种简单而有效的 RFT 方法,通过轨迹级奖励塑造 (https://huggingface.co/papers?q=trajectory-level%20reward%20shaping) 显式缓解遗忘。具体来说,RaPO 包含两个核心组件:(1) 保留奖励 (Retention Reward),将轨迹级分布漂移转换为连续奖励信号,在每个组内优先增强保留知识的 rollout;(2) 跨任务优势归一化 (https://huggingface.co/papers?q=Cross-Task%20Advantage%20Normalization) (CTAN),在任务边界上维护奖励统计信息的持久指数移动平均,以稳定持续学习期间的优化进程。利用多模态大语言模型 (MLLMs) (https://huggingface.co/papers?q=MLLMs) 的自由形式文本泛化能力,我们在五种视觉持续学习设置上全面评估 RaPO。大量实验表明,RaPO 取得了领先性能,在显著减少灾难性遗忘的同时保持了良好的可塑性。据我们所知,这项工作是 RFT 在视觉持续学习中的首次系统性探索,我们希望其中提供的见解能够启发未来研究。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09640) 查看 PDF (https://arxiv.org/pdf/2605.09640) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09640)

在你的代理中获取此论文:

hf papers read 2605.09640

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09640 以从该页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.09640 以从该页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.09640 以从该页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从该页面链接。

相似文章

面向大型语言模型归因引导的持续学习

arXiv cs.LG

本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。