entropy-guidance

#entropy-guidance

在策略自蒸馏中尊重自不确定性以实现高效LLM推理

arXiv cs.AI ↗ · 2026-05-14 缓存

本文提出了EGRSD和CL-EGRSD，这是在策略自蒸馏方法，通过教师熵对令牌级监督进行加权，以改善大语言模型推理准确性-长度的权衡，并在Qwen3-4B和Qwen3-8B上进行了评估。

0 人收藏 0 人点赞