@LakshyAAAgrawal: 从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。…

X AI KOLs Following 论文

摘要

快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。

从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。GEPA在上下文空间优化(提示和代理工具)中证明了这一点,以远低于RL的成本实现了前沿结果。但仅上下文优化受限于基础模型的能力上限;权重更新可以达到更远。非常兴奋于这个关于快速-慢速训练(FST)的新研究方向,它将上下文和模型权重优化交替进行!其理念是两个交替循环之间的清晰分工:快速循环(上下文):GEPA读取丰富的 rollout 反馈,更新上下文层。上下文成为快速更新的暂存区,记录模型当前需要了解的任务信息。慢速循环(模型参数):RL根据不断演化的上下文更新模型参数。由于提示已经携带了任务特定的细微差别,模型参数无需吸收这些信息,而是专注于跨任务泛化并推动前沿。⦁ 在数学、代码和物理推理上,样本效率比单独RL高3倍⦁ 在相同准确度下,与基础模型的KL散度降低约70%⦁ 保持可塑性:FST检查点在新任务上对额外RL的响应优于仅RL的检查点⦁ 持续学习跨变化任务(HoVer → CodeIO → Physics),而RL在任务切换时停滞FST 是一个发展方向,旨在:⦁ 解决RL的痛点:熵坍缩、稀疏奖励、长程探索⦁ 为权重更新提供丰富的反馈通道⦁ 演示模型与工具的共同进化⦁ 发现:利用快速上下文更新进行广泛探索,同时利用不断改进的模型。查看下方完整线程:
查看原文

相似文章

学习,快与慢:走向持续适应的LLMs

Hugging Face Daily Papers

一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。

超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则

Hugging Face Daily Papers

本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。

GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调

Hugging Face Daily Papers

# 论文页面 - GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调 来源:[https://huggingface.co/papers/2604.14258](https://huggingface.co/papers/2604.14258) ## 摘要 Group Fine-Tuning 通过利用多样化的回复群组和自适应权重边界来解决监督微调的局限性,从而提升训练稳定性与效率。大语言模型通常在后训练中使用[监督微调](https://hug