feedback-distillation

标签

Cards List
#feedback-distillation

面向Lean定理证明的LLM反馈蒸馏

arXiv cs.AI · 4天前 缓存

提出反馈蒸馏(Feedback Distillation),一种利用来自LLM的token级监督来改进复杂推理的训练方法,在Lean 4定理证明上进行了评估。该方法比GRPO更好地保持了多样性,且两种方法互补。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈