gradient-extrapolation

#gradient-extrapolation

基于梯度外推的策略优化

arXiv cs.LG ↗ · 2026-05-11 缓存

本文介绍了基于梯度外推的策略优化（GXPO），这是一种仅使用三次反向传播即可在大型语言模型（LLM）的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时，在数学基准测试上展示了优于标准 GRPO 的推理性能。

0 人收藏 0 人点赞