我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]

Reddit r/MachineLearning 工具

摘要

RPS是一种受神经科学启发的两阶段LLM后训练方法,结合了课程学习和学习率衰减。初步结果显示,与等学习率训练相比,在Qwen3-8b上程序合成可靠性得到提升。

RPS受神经科学启发。作为人类,我们在儿童时期以高神经可塑性学习基本技能。然后在青少年和成年时期以低神经可塑性学习高级技能。RPS分两阶段训练模型。在第一阶段,模型以高学习率在简单数据上训练。在第二阶段,模型以第一阶段10%的学习率在困难数据上训练。RPS基本上是现有思想的结合:课程学习+学习率衰减。ARC-AGI 1公开评测分数:基础模型:Qwen3-8b RPS:4% EPS(两阶段等学习率):2.4% 程序合成统计:无错误执行的程序:RPS:1145/1200 EPS:870/1200 [https://iamjasonfeng.blogspot.com/2026/05/regressive-plasticity-schedule.html](https://iamjasonfeng.blogspot.com/2026/05/regressive-plasticity-schedule.html) [https://github.com/iamjasonfeng/RPS](https://github.com/iamjasonfeng/RPS)
查看原文

相似文章

预训练期间的RL探索:重新审视LLM训练的策略优化

arXiv cs.LG

哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。

通过自适应张量并行加速同步RLHF训练中的长尾生成

arXiv cs.AI

本文提出PAT,一种自适应张量并行方法,在同步RLHF训练的生成长阶段动态重构TP配置,以缓解长尾生成瓶颈。在LLaMA3.1-8B和Qwen3-14B上的评估显示,生成延迟最多降低34.6%,端到端迭代延迟最多降低27.2%。

ExpRL:面向LLM中期训练的探索式强化学习

Hugging Face Daily Papers

ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。