@LakshyAAAgrawal: 从丰富的文本反馈（错误、轨迹、部分推理）中学习，对于LLM优化来说，优于仅使用标量奖励。…

X AI KOLs Following 2026/05/13 20:48 论文

摘要

快速-慢速训练（FST）将上下文优化（通过GEPA）与通过强化学习进行的模型权重更新交替进行，在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率，同时保持了可塑性并实现了持续学习。

从丰富的文本反馈（错误、轨迹、部分推理）中学习，对于LLM优化来说，优于仅使用标量奖励。GEPA在上下文空间优化（提示和代理工具）中证明了这一点，以远低于RL的成本实现了前沿结果。但仅上下文优化受限于基础模型的能力上限；权重更新可以达到更远。非常兴奋于这个关于快速-慢速训练（FST）的新研究方向，它将上下文和模型权重优化交替进行！其理念是两个交替循环之间的清晰分工：快速循环（上下文）：GEPA读取丰富的 rollout 反馈，更新上下文层。上下文成为快速更新的暂存区，记录模型当前需要了解的任务信息。慢速循环（模型参数）：RL根据不断演化的上下文更新模型参数。由于提示已经携带了任务特定的细微差别，模型参数无需吸收这些信息，而是专注于跨任务泛化并推动前沿。⦁ 在数学、代码和物理推理上，样本效率比单独RL高3倍⦁ 在相同准确度下，与基础模型的KL散度降低约70%⦁ 保持可塑性：FST检查点在新任务上对额外RL的响应优于仅RL的检查点⦁ 持续学习跨变化任务（HoVer → CodeIO → Physics），而RL在任务切换时停滞FST 是一个发展方向，旨在：⦁ 解决RL的痛点：熵坍缩、稀疏奖励、长程探索⦁ 为权重更新提供丰富的反馈通道⦁ 演示模型与工具的共同进化⦁ 发现：利用快速上下文更新进行广泛探索，同时利用不断改进的模型。查看下方完整线程：

查看原文

@LakshyAAAgrawal: 从丰富的文本反馈（错误、轨迹、部分推理）中学习，对于LLM优化来说，优于仅使用标量奖励。…

相似文章

快慢学习：迈向持续适应的大语言模型 [R]

学习，快与慢：走向持续适应的LLMs

强化学习能否教会大型语言模型进行长程推理？表达力是关键

超越 GRPO 与策略内蒸馏：语言模型后训练的经验性“稀疏至稠密”奖励原则

GFT：基于无偏群组优势与动态系数修正，从模仿迈向奖励微调

提交意见反馈