快慢学习:迈向持续适应的大语言模型 [R]
摘要
本文提出了一种用于大语言模型的快慢训练框架,该框架结合参数更新与上下文优化,以提高样本效率并减少持续学习过程中的灾难性遗忘。
大型语言模型(LLMs)通过更新参数(例如通过强化学习)来针对下游任务进行训练。然而,更新参数迫使模型吸收特定任务的信息,这可能导致灾难性遗忘以及可塑性的丧失。相比之下,使用固定参数的上下文学习可以廉价且快速地适应特定任务的需求(例如提示优化),但通常无法单独达到通过更新参数所能获得的性能提升。没有充分的理由将学习限制为仅在上下文或仅在权重中进行。此外,人类的学习也可能发生在不同的时间尺度上(例如系统1与系统2)。为此,我们为大语言模型引入了一种快慢学习框架,将模型参数视为“慢”权重,将优化的上下文视为“快”权重。这些“快”权重可以从文本反馈中学习以吸收特定任务的信息,同时允许“慢”权重更接近基础模型并保持一般的推理行为。在各种推理任务中,快慢训练(FST)的样本效率比仅进行慢速学习(强化学习)高出多达3倍,并且始终达到更高的性能渐近线。此外,经过FST训练的模型更贴近基础大语言模型(KL散度减少多达70%),从而比强化学习训练产生更少的灾难性遗忘。这种减少的漂移也保留了可塑性:在完成一个任务的训练后,FST训练的模型比仅训练参数的模型能更有效地适应后续任务。在任务域随时变化的持续学习场景中,FST能够持续掌握每个新任务,而仅基于参数的强化学习则会停滞不前。[https://arxiv.org/abs/2605.12484v1](https://arxiv.org/abs/2605.12484v1)
相似文章
学习,快与慢:走向持续适应的LLMs
一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。
面向长上下文大语言模型的训练-推理一致性分段执行
本文提出了一种面向长上下文大语言模型的训练-推理一致性分段执行框架,旨在解决全上下文训练与受限推理机制之间的不匹配问题,在显著降低内存占用的同时实现了相当的性能。
从历史到状态:面向 LLM 智能体的恒定上下文技能学习
本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。
JumpLoRA:大语言模型持续学习的稀疏适配器
JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。
超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。