快慢学习：迈向持续适应的大语言模型 [R]

Reddit r/MachineLearning 2026/05/13 10:38 论文

摘要

本文提出了一种用于大语言模型的快慢训练框架，该框架结合参数更新与上下文优化，以提高样本效率并减少持续学习过程中的灾难性遗忘。

大型语言模型（LLMs）通过更新参数（例如通过强化学习）来针对下游任务进行训练。然而，更新参数迫使模型吸收特定任务的信息，这可能导致灾难性遗忘以及可塑性的丧失。相比之下，使用固定参数的上下文学习可以廉价且快速地适应特定任务的需求（例如提示优化），但通常无法单独达到通过更新参数所能获得的性能提升。没有充分的理由将学习限制为仅在上下文或仅在权重中进行。此外，人类的学习也可能发生在不同的时间尺度上（例如系统1与系统2）。为此，我们为大语言模型引入了一种快慢学习框架，将模型参数视为“慢”权重，将优化的上下文视为“快”权重。这些“快”权重可以从文本反馈中学习以吸收特定任务的信息，同时允许“慢”权重更接近基础模型并保持一般的推理行为。在各种推理任务中，快慢训练（FST）的样本效率比仅进行慢速学习（强化学习）高出多达3倍，并且始终达到更高的性能渐近线。此外，经过FST训练的模型更贴近基础大语言模型（KL散度减少多达70%），从而比强化学习训练产生更少的灾难性遗忘。这种减少的漂移也保留了可塑性：在完成一个任务的训练后，FST训练的模型比仅训练参数的模型能更有效地适应后续任务。在任务域随时变化的持续学习场景中，FST能够持续掌握每个新任务，而仅基于参数的强化学习则会停滞不前。[https://arxiv.org/abs/2605.12484v1](https://arxiv.org/abs/2605.12484v1)

查看原文

快慢学习：迈向持续适应的大语言模型 [R]

相似文章

学习，快与慢：走向持续适应的LLMs

面向长上下文大语言模型的训练-推理一致性分段执行

从历史到状态：面向 LLM 智能体的恒定上下文技能学习

JumpLoRA：大语言模型持续学习的稀疏适配器

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

提交意见反馈