使用回放缓冲区重新审视难题 (8分钟阅读)

TLDR AI 论文

摘要

ZPPO在LLMs/VLMs的强化学习中为难题引入了回放缓冲区,允许反复接触,逐步提高rollout准确性,而不会导致策略漂移。该方法比GRPO解决了更多难题,尤其是那些初始准确率接近零的问题。

ZPPO将困难问题存储在回放缓冲区中,以便模型可以反复训练这些难题,而不是只看到一次。该方法旨在加强对具有挑战性示例的学习,并提高rollout准确性。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:14

# NVIDIA-ZPPO: 近端策略优化区域 Source: https://byungkwanlee.github.io/ZPPO-page/ 摘要 ### 准确率提升 \(Δ pp\) 方法**10个LLM基准****16个VLM基准****5个视频基准** Off\-Policy Distill†0\.00\.00\.0 On\-Policy Distill†0\.00\.00\.0 GRPO†0\.00\.00\.0 GRPO†\+ 教师响应0\.00\.00\.0 **ZPPO**\(Ours\)0\.00\.00\.0 †:提示回放缓冲区·所有实验在Qwen3.5上运行 1 / 3Off\-Policy Distill†和On\-Policy Distill† 蒸馏迫使学生模仿教师logits,导致在训练样本上的**记忆**,同时在未见样本上**降低泛化能力**。(对数据集和教师过拟合) 2 / 3GRPO† 强化学习让模型自由回答问题直到解决,鼓励**通过自我反思进行推理探索,例如“等等,这一步看起来不对——让我重新检查一下。”**(不强制模仿任何回答)——**保持泛化能力**。然而,强化学习无法学会解决**rollout准确率接近于零的难题**——它们被**永久丢弃**。 3 / 3GRPO†\+ 教师响应 为了解决难题,一些强化学习方法简单地将教师的响应注入学生——仿佛这是学生自己的响应——破坏了**同策略假设**,**再次降低泛化能力**。 洞察 研究问题 > 对于**难题**,如何在不模仿教师logits或不将教师响应直接注入学生梯度的情况下,将教师的知识转移给学生?如何让学生在不产生**策略漂移**(泛化能力下降)的情况下解决难题? 方法 技术上,我们使用**回放缓冲区**来存储**难题**,因此模型多次重新访问每个**难题**——不像GRPO那样只访问一次。重复暴露增强了每个**难题**上的BCQ/NCQ效应,我们期望这能提升其**rollout准确率**。 1. **批次**包含新问题、重放问题、**BCQ**和**NCQ**——**学生**在这些问题上进行**强化学习训练**。 结果 一个问题的rollout准确率持续**低于50%**时被接纳进入**回放缓冲区**,一旦准确率达到**50%**,它就**毕业**——离开缓冲区。ZPPO毕业的难题远多于GRPO,且在初始准确率接近**零**时差距最大。 定性分析 ## *BCQ*\+*NCQ*对难题的作用。

相似文章

面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放

arXiv cs.CL

# 面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放 来源:[https://arxiv.org/html/2604.16918](https://arxiv.org/html/2604.16918) Weiyu Ma1 Yongcheng Zeng2 Yan Song3 Xinyu Cui2 Jian Zhao4 Xuhui Liu1 Mohamed Elhoseiny1 1 阿卜杜拉国王科技大学 (KAUST) 2 中国科学院自动化研究所 (CASIA) 3 伦敦大学学院计算机科学系人工智能中心 4 中关村人工智能研究院 weiyu\.

SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索

arXiv cs.CL

研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。