learning-rate-decay

标签

Cards List
#learning-rate-decay

我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]

Reddit r/MachineLearning · 2026-05-21

RPS是一种受神经科学启发的两阶段LLM后训练方法,结合了课程学习和学习率衰减。初步结果显示,与等学习率训练相比,在Qwen3-8b上程序合成可靠性得到提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈