标签
本文介绍了 Entrocraft,这是一种用于强化学习的拒绝采样方法,通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命,使较小规模的模型能够超越较大的基线模型。