dapo

标签

#dapo

@johnschulman2: PPO在LLM时代迎来了第二波，原因超出了原始论文的预期——重要性比率目标会修正由数值误差、异步训练和前向传播噪声引起的偏差——而裁剪目标通过一种我们当初发表时未知的机制影响熵（DAPO, https://arxiv.org/abs/2509.26114）

X AI KOLs Following ↗ · 昨天缓存

本文揭示了PPO和GRPO中的裁剪机制在LLM的RLVR中引入了熵偏差：低裁剪增加熵，高裁剪减少熵。作者证明，即使在随机奖励的情况下，标准裁剪也会降低熵，并表明调整低裁剪可以防止熵塌陷并促进探索。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈