利用强化微调克服视觉连续学习中的灾难性遗忘

Hugging Face Daily Papers 2026/05/10 00:00 论文

catastrophic-forgetting continual-learning reinforcement-fine-tuning visual-learning policy-optimization reward-shaping retention-aware-policy-optimization

摘要

本文提出保留感知策略优化（RaPO），通过强化微调缓解视觉连续学习中的灾难性遗忘。RaPO采用轨迹级奖励塑形和跨任务优势归一化，缩小了类增量学习和域增量学习中强化微调与监督微调之间的差距。

最近的研究表明，强化微调（RFT）天生比监督微调（SFT）更能抵抗灾难性遗忘。然而，RFT（例如GRPO）能否在具有挑战性的视觉连续学习场景（如类增量学习（CIL）和域增量学习（DIL））中有效克服遗忘仍是一个未解决的问题。通过一项初步研究，我们确认虽然RFT始终优于SFT，但它仍然遭受不可忽视的遗忘。我们经验性地将这一瓶颈追溯到轨迹级漂移不可知性：在获得相同任务奖励的候选轨迹中，与前序任务策略的KL散度存在显著差异，这与跨顺序任务的灾难性遗忘密切相关。基于这一发现，我们提出了保留感知策略优化（RaPO），这是一种简单而有效的RFT方法，通过轨迹级奖励塑形明确缓解遗忘。具体来说，RaPO包含两个核心组件：（1）保留奖励，将轨迹级分布漂移转化为连续奖励信号，优先增强每个组内保留知识的轨迹；（2）跨任务优势归一化（CTAN），维持任务边界上奖励统计量的持久指数移动平均，以稳定连续学习中的优化进程。利用MLLMs的自由形式文本泛化能力，我们在五个视觉连续学习设置上全面评估了RaPO。大量实验表明，RaPO实现了领先性能，在保持强可塑性的同时大幅减少了灾难性遗忘。据我们所知，这项工作首次系统探索了RFT在视觉连续学习中的应用，提供的见解有望启发未来的研究。

查看原文

查看缓存全文

缓存时间: 2026/05/20 10:37

论文页面 - 通过强化微调克服视觉持续学习中的灾难性遗忘

来源: https://huggingface.co/papers/2605.09640

摘要

强化微调在视觉持续学习中存在灾难性遗忘问题，本文通过保留感知策略优化（Retention-aware Policy Optimization）来解决，该方法使用轨迹级奖励塑造和跨任务优势归一化。

近期研究表明，强化微调 (https://huggingface.co/papers?q=Reinforcement%20Fine-Tuning) (RFT) 本质上比监督微调 (https://huggingface.co/papers?q=Supervised%20Fine-Tuning) (SFT) 对灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting) 更具鲁棒性。然而，RFT（例如 GRPO (https://huggingface.co/papers?q=GRPO)）能否有效克服具有挑战性的视觉持续学习场景（如类增量学习 (https://huggingface.co/papers?q=class-incremental%20learning) (CIL) 和域增量学习 (https://huggingface.co/papers?q=domain-incremental%20learning) (DIL)）中的遗忘，仍是一个开放问题。通过一项初步研究，我们确认虽然 RFT 始终优于 SFT，但它仍然遭受不可忽视的遗忘。我们通过实证将这一瓶颈追溯到轨迹级漂移不可知性 (https://huggingface.co/papers?q=Trajectory-level%20Drift%20Agnosticism)：在获得相同任务奖励的候选 rollout 中，与前一任务策略的 KL 散度差异显著，这与跨连续任务的灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting) 高度相关。基于这一洞察，我们提出保留感知策略优化 (https://huggingface.co/papers?q=Retention-aware%20Policy%20Optimization) (RaPO)，一种简单而有效的 RFT 方法，通过轨迹级奖励塑造 (https://huggingface.co/papers?q=trajectory-level%20reward%20shaping) 显式缓解遗忘。具体来说，RaPO 包含两个核心组件：(1) 保留奖励 (Retention Reward)，将轨迹级分布漂移转换为连续奖励信号，在每个组内优先增强保留知识的 rollout；(2) 跨任务优势归一化 (https://huggingface.co/papers?q=Cross-Task%20Advantage%20Normalization) (CTAN)，在任务边界上维护奖励统计信息的持久指数移动平均，以稳定持续学习期间的优化进程。利用多模态大语言模型 (MLLMs) (https://huggingface.co/papers?q=MLLMs) 的自由形式文本泛化能力，我们在五种视觉持续学习设置上全面评估 RaPO。大量实验表明，RaPO 取得了领先性能，在显著减少灾难性遗忘的同时保持了良好的可塑性。据我们所知，这项工作是 RFT 在视觉持续学习中的首次系统性探索，我们希望其中提供的见解能够启发未来研究。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09640) 查看 PDF (https://arxiv.org/pdf/2605.09640) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09640)

在你的代理中获取此论文：

hf papers read 2605.09640

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09640 以从该页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.09640 以从该页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.09640 以从该页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从该页面链接。

利用强化微调克服视觉连续学习中的灾难性遗忘

论文页面 - 通过强化微调克服视觉持续学习中的灾难性遗忘

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

RAFT：缓解遗忘的领域微调中的数据优化与自适应蒸馏

Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

灾难性遗忘的机制起源：为什么RL比SFT更好地保留电路？

从自身错误中学习：为自蒸馏构建可学习的微反思轨迹

面向大型语言模型归因引导的持续学习

提交意见反馈