strategy-distillation

标签

Cards List
#strategy-distillation

超越轨迹模仿:面向大模型推理的Strategy-Guided Policy Optimization

arXiv cs.AI · 2天前 缓存

介绍了针对大模型推理的Strategy-Guided Policy Optimization(SGPO),该方法用策略蒸馏替代轨迹模仿,提升了数学基准测试上的泛化能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈