我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]

Reddit r/MachineLearning 2026/05/21 16:19 工具

post-training curriculum-learning learning-rate-decay program-synthesis qwen llm-training

摘要

RPS是一种受神经科学启发的两阶段LLM后训练方法，结合了课程学习和学习率衰减。初步结果显示，与等学习率训练相比，在Qwen3-8b上程序合成可靠性得到提升。

RPS受神经科学启发。作为人类，我们在儿童时期以高神经可塑性学习基本技能。然后在青少年和成年时期以低神经可塑性学习高级技能。RPS分两阶段训练模型。在第一阶段，模型以高学习率在简单数据上训练。在第二阶段，模型以第一阶段10%的学习率在困难数据上训练。RPS基本上是现有思想的结合：课程学习+学习率衰减。ARC-AGI 1公开评测分数：基础模型：Qwen3-8b RPS：4% EPS（两阶段等学习率）：2.4% 程序合成统计：无错误执行的程序：RPS：1145/1200 EPS：870/1200 [https://iamjasonfeng.blogspot.com/2026/05/regressive-plasticity-schedule.html](https://iamjasonfeng.blogspot.com/2026/05/regressive-plasticity-schedule.html) [https://github.com/iamjasonfeng/RPS](https://github.com/iamjasonfeng/RPS)

查看原文

我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]

相似文章

@rasbt: 疯狂模型！它实际上使用了旧的Qwen2.5-Coder-3B栈，并通过后训练取得了非常出色的性能……

预训练期间的RL探索：重新审视LLM训练的策略优化

通过自适应张量并行加速同步RLHF训练中的长尾生成

ExpRL：面向LLM中期训练的探索式强化学习

从受训者到训练者：面向多智能体推理的强化学习的LLM设计训练环境

提交意见反馈