optimization-granularity

标签

Cards List
#optimization-granularity

过滤后重加权:重新思考在线策略蒸馏中的优化粒度

arXiv cs.LG · 3天前 缓存

介绍FiRe-OPD,一种用于大语言模型在线策略蒸馏的方法,它过滤低质量轨迹并应用软重加权来强调信息丰富的令牌,在强到弱、单教师和多教师设置中实现了改进的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈