optimization-granularity

#optimization-granularity

过滤后重加权：重新思考在线策略蒸馏中的优化粒度

arXiv cs.LG ↗ · 3天前缓存

介绍FiRe-OPD，一种用于大语言模型在线策略蒸馏的方法，它过滤低质量轨迹并应用软重加权来强调信息丰富的令牌，在强到弱、单教师和多教师设置中实现了改进的性能。

0 人收藏 0 人点赞