entropy-guidance

标签

Cards List
#entropy-guidance

在策略自蒸馏中尊重自不确定性以实现高效LLM推理

arXiv cs.AI · 2026-05-14 缓存

本文提出了EGRSD和CL-EGRSD,这是在策略自蒸馏方法,通过教师熵对令牌级监督进行加权,以改善大语言模型推理准确性-长度的权衡,并在Qwen3-4B和Qwen3-8B上进行了评估。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈