我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]
摘要
RPS是一种受神经科学启发的两阶段LLM后训练方法,结合了课程学习和学习率衰减。初步结果显示,与等学习率训练相比,在Qwen3-8b上程序合成可靠性得到提升。
RPS受神经科学启发。作为人类,我们在儿童时期以高神经可塑性学习基本技能。然后在青少年和成年时期以低神经可塑性学习高级技能。RPS分两阶段训练模型。在第一阶段,模型以高学习率在简单数据上训练。在第二阶段,模型以第一阶段10%的学习率在困难数据上训练。RPS基本上是现有思想的结合:课程学习+学习率衰减。ARC-AGI 1公开评测分数:基础模型:Qwen3-8b RPS:4% EPS(两阶段等学习率):2.4% 程序合成统计:无错误执行的程序:RPS:1145/1200 EPS:870/1200 [https://iamjasonfeng.blogspot.com/2026/05/regressive-plasticity-schedule.html](https://iamjasonfeng.blogspot.com/2026/05/regressive-plasticity-schedule.html) [https://github.com/iamjasonfeng/RPS](https://github.com/iamjasonfeng/RPS)
相似文章
@rasbt: 疯狂模型!它实际上使用了旧的Qwen2.5-Coder-3B栈,并通过后训练取得了非常出色的性能……
一个使用Qwen2.5-Coder-3B栈的3B参数模型,在编程基准测试中取得了与Claude Opus 4.5相媲美的分数,采用了详细的后训练技术,包括合成数据、过滤、两阶段SFT,以及一种新颖的RL方法(MGPO)。
预训练期间的RL探索:重新审视LLM训练的策略优化
哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。
通过自适应张量并行加速同步RLHF训练中的长尾生成
本文提出PAT,一种自适应张量并行方法,在同步RLHF训练的生成长阶段动态重构TP配置,以缓解长尾生成瓶颈。在LLaMA3.1-8B和Qwen3-14B上的评估显示,生成延迟最多降低34.6%,端到端迭代延迟最多降低27.2%。
ExpRL:面向LLM中期训练的探索式强化学习
ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。
从受训者到训练者:面向多智能体推理的强化学习的LLM设计训练环境
本文提出了LLM-as-Environment-Engineer框架,其中策略模型通过分析失败案例自动重新设计强化学习训练环境,并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型,性能优于GPT和Gemini等更大规模模型,表明策略学习提升了模型诊断自身弱点的能力。