使用回放缓冲区重新审视难题 (8分钟阅读)
摘要
ZPPO在LLMs/VLMs的强化学习中为难题引入了回放缓冲区,允许反复接触,逐步提高rollout准确性,而不会导致策略漂移。该方法比GRPO解决了更多难题,尤其是那些初始准确率接近零的问题。
ZPPO将困难问题存储在回放缓冲区中,以便模型可以反复训练这些难题,而不是只看到一次。该方法旨在加强对具有挑战性示例的学习,并提高rollout准确性。
查看缓存全文
缓存时间:
2026/06/20 14:14
# NVIDIA-ZPPO: 近端策略优化区域
Source: https://byungkwanlee.github.io/ZPPO-page/
摘要
### 准确率提升 \(Δ pp\)
方法**10个LLM基准****16个VLM基准****5个视频基准**
Off\-Policy Distill†0\.00\.00\.0
On\-Policy Distill†0\.00\.00\.0
GRPO†0\.00\.00\.0
GRPO†\+ 教师响应0\.00\.00\.0
**ZPPO**\(Ours\)0\.00\.00\.0
†:提示回放缓冲区·所有实验在Qwen3.5上运行
1 / 3Off\-Policy Distill†和On\-Policy Distill†
蒸馏迫使学生模仿教师logits,导致在训练样本上的**记忆**,同时在未见样本上**降低泛化能力**。(对数据集和教师过拟合)
2 / 3GRPO†
强化学习让模型自由回答问题直到解决,鼓励**通过自我反思进行推理探索,例如“等等,这一步看起来不对——让我重新检查一下。”**(不强制模仿任何回答)——**保持泛化能力**。然而,强化学习无法学会解决**rollout准确率接近于零的难题**——它们被**永久丢弃**。
3 / 3GRPO†\+ 教师响应
为了解决难题,一些强化学习方法简单地将教师的响应注入学生——仿佛这是学生自己的响应——破坏了**同策略假设**,**再次降低泛化能力**。
洞察
研究问题
> 对于**难题**,如何在不模仿教师logits或不将教师响应直接注入学生梯度的情况下,将教师的知识转移给学生?如何让学生在不产生**策略漂移**(泛化能力下降)的情况下解决难题?
方法
技术上,我们使用**回放缓冲区**来存储**难题**,因此模型多次重新访问每个**难题**——不像GRPO那样只访问一次。重复暴露增强了每个**难题**上的BCQ/NCQ效应,我们期望这能提升其**rollout准确率**。
1. **批次**包含新问题、重放问题、**BCQ**和**NCQ**——**学生**在这些问题上进行**强化学习训练**。
结果
一个问题的rollout准确率持续**低于50%**时被接纳进入**回放缓冲区**,一旦准确率达到**50%**,它就**毕业**——离开缓冲区。ZPPO毕业的难题远多于GRPO,且在初始准确率接近**零**时差距最大。
定性分析
## *BCQ*\+*NCQ*对难题的作用。
相似文章
arXiv cs.CL
本文介绍ReRULE,一种用于LLM强化遗忘的离策略回放方法,在RWKU和MUSE等基准测试中提高了遗忘与保留效率。
arXiv cs.CL
# 面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放
来源:[https://arxiv.org/html/2604.16918](https://arxiv.org/html/2604.16918)
Weiyu Ma1 Yongcheng Zeng2 Yan Song3 Xinyu Cui2 Jian Zhao4 Xuhui Liu1 Mohamed Elhoseiny1
1 阿卜杜拉国王科技大学 (KAUST)
2 中国科学院自动化研究所 (CASIA)
3 伦敦大学学院计算机科学系人工智能中心
4 中关村人工智能研究院
weiyu\.
arXiv cs.CL
研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。
Hugging Face Daily Papers
最近发展区策略优化(ZPPO)通过使用重新构建的提示来改进知识蒸馏,帮助学生从正确和错误的回答中学习,尤其在小模型规模下提升了性能。
arXiv cs.AI
本文提出PTD-PO,一种特权引导式蒸馏框架,可在多模态推理任务中为基于可验证奖励的强化学习提供密集的token级监督,且不暴露答案。该框架利用结构化提示和Top-K JS散度目标以稳定训练,在2B-8B LVLMs上持续优于现有方法。