strategy-distillation

#strategy-distillation

超越轨迹模仿：面向大模型推理的Strategy-Guided Policy Optimization

arXiv cs.AI ↗ · 2天前缓存

介绍了针对大模型推理的Strategy-Guided Policy Optimization（SGPO），该方法用策略蒸馏替代轨迹模仿，提升了数学基准测试上的泛化能力。

0 人收藏 0 人点赞