gradient-extrapolation

标签

Cards List
#gradient-extrapolation

基于梯度外推的策略优化

arXiv cs.LG · 2026-05-11 缓存

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈