learning-rate-decay

标签

#learning-rate-decay

我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]

Reddit r/MachineLearning ↗ · 2026-05-21

RPS是一种受神经科学启发的两阶段LLM后训练方法，结合了课程学习和学习率衰减。初步结果显示，与等学习率训练相比，在Qwen3-8b上程序合成可靠性得到提升。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈