feedback-distillation

#feedback-distillation

面向Lean定理证明的LLM反馈蒸馏

arXiv cs.AI ↗ · 4天前缓存

提出反馈蒸馏（Feedback Distillation），一种利用来自LLM的token级监督来改进复杂推理的训练方法，在Lean 4定理证明上进行了评估。该方法比GRPO更好地保持了多样性，且两种方法互补。

0 人收藏 0 人点赞