BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
learning-rate-decay
标签
Cards
List
#learning-rate-decay
我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]
Reddit r/MachineLearning
↗
· 2026-05-21
RPS是一种受神经科学启发的两阶段LLM后训练方法,结合了课程学习和学习率衰减。初步结果显示,与等学习率训练相比,在Qwen3-8b上程序合成可靠性得到提升。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交