使用回放缓冲区重新审视难题 (8分钟阅读)

TLDR AI 2026/06/19 00:00 论文

reinforcement-learning policy-optimization replay-buffer llm vlm generalization hard-questions

摘要

ZPPO在LLMs/VLMs的强化学习中为难题引入了回放缓冲区，允许反复接触，逐步提高rollout准确性，而不会导致策略漂移。该方法比GRPO解决了更多难题，尤其是那些初始准确率接近零的问题。

ZPPO将困难问题存储在回放缓冲区中，以便模型可以反复训练这些难题，而不是只看到一次。该方法旨在加强对具有挑战性示例的学习，并提高rollout准确性。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:14

# NVIDIA-ZPPO: 近端策略优化区域 Source: https://byungkwanlee.github.io/ZPPO-page/ 摘要 ### 准确率提升 \(Δ pp\) 方法**10个LLM基准****16个VLM基准****5个视频基准** Off\-Policy Distill†0\.00\.00\.0 On\-Policy Distill†0\.00\.00\.0 GRPO†0\.00\.00\.0 GRPO†\+ 教师响应0\.00\.00\.0 **ZPPO**\(Ours\)0\.00\.00\.0 †：提示回放缓冲区·所有实验在Qwen3.5上运行 1 / 3Off\-Policy Distill†和On\-Policy Distill† 蒸馏迫使学生模仿教师logits，导致在训练样本上的**记忆**，同时在未见样本上**降低泛化能力**。（对数据集和教师过拟合） 2 / 3GRPO† 强化学习让模型自由回答问题直到解决，鼓励**通过自我反思进行推理探索，例如“等等，这一步看起来不对——让我重新检查一下。”**（不强制模仿任何回答）——**保持泛化能力**。然而，强化学习无法学会解决**rollout准确率接近于零的难题**——它们被**永久丢弃**。 3 / 3GRPO†\+ 教师响应为了解决难题，一些强化学习方法简单地将教师的响应注入学生——仿佛这是学生自己的响应——破坏了**同策略假设**，**再次降低泛化能力**。洞察研究问题 > 对于**难题**，如何在不模仿教师logits或不将教师响应直接注入学生梯度的情况下，将教师的知识转移给学生？如何让学生在不产生**策略漂移**（泛化能力下降）的情况下解决难题？方法技术上，我们使用**回放缓冲区**来存储**难题**，因此模型多次重新访问每个**难题**——不像GRPO那样只访问一次。重复暴露增强了每个**难题**上的BCQ/NCQ效应，我们期望这能提升其**rollout准确率**。 1. **批次**包含新问题、重放问题、**BCQ**和**NCQ**——**学生**在这些问题上进行**强化学习训练**。结果一个问题的rollout准确率持续**低于50%**时被接纳进入**回放缓冲区**，一旦准确率达到**50%**，它就**毕业**——离开缓冲区。ZPPO毕业的难题远多于GRPO，且在初始准确率接近**零**时差距最大。定性分析 ## *BCQ*\+*NCQ*对难题的作用。

相似文章

回放重要内容：用于高效LLM强化遗忘的离策略回放方法

arXiv cs.CL

本文介绍ReRULE，一种用于LLM强化遗忘的离策略回放方法，在RWKU和MUSE等基准测试中提高了遗忘与保留效率。

面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放

arXiv cs.CL

# 面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放来源：[https://arxiv.org/html/2604.16918](https://arxiv.org/html/2604.16918) Weiyu Ma1 Yongcheng Zeng2 Yan Song3 Xinyu Cui2 Jian Zhao4 Xuhui Liu1 Mohamed Elhoseiny1 1 阿卜杜拉国王科技大学 (KAUST) 2 中国科学院自动化研究所 (CASIA) 3 伦敦大学学院计算机科学系人工智能中心 4 中关村人工智能研究院 weiyu\.

使用回放缓冲区重新审视难题 (8分钟阅读)

相似文章

回放重要内容：用于高效LLM强化遗忘的离策略回放方法

面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放

SPS：通过概率挤压引导实现大语言模型强化学习中的更优探索

最近发展区策略优化：教师存在于提示中，而非梯度

授之以渔而非授之以鱼：面向多模态策略优化的特权引导式蒸馏

提交意见反馈