hard-questions

标签

Cards List
#hard-questions

使用回放缓冲区重新审视难题 (8分钟阅读)

TLDR AI · 2026-06-19 缓存

ZPPO在LLMs/VLMs的强化学习中为难题引入了回放缓冲区,允许反复接触,逐步提高rollout准确性,而不会导致策略漂移。该方法比GRPO解决了更多难题,尤其是那些初始准确率接近零的问题。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈