staleness

#staleness

AsyncOPD：在策略蒸馏可以有多陈旧？

arXiv cs.LG ↗ · 6天前缓存

本文提出 AsyncOPD，一种完全异步的在策略蒸馏流程，用于大语言模型，系统研究了陈旧策略数据的影响，并提出了估计器设计，使训练吞吐量提升 1.6-3.8 倍，同时保持相当的准确率。

0 人收藏 0 人点赞