hard-questions

#hard-questions

使用回放缓冲区重新审视难题 (8分钟阅读)

TLDR AI ↗ · 2026-06-19 缓存

ZPPO在LLMs/VLMs的强化学习中为难题引入了回放缓冲区，允许反复接触，逐步提高rollout准确性，而不会导致策略漂移。该方法比GRPO解决了更多难题，尤其是那些初始准确率接近零的问题。

0 人收藏 0 人点赞