快慢学习:迈向持续适应的大语言模型 [R]

Reddit r/MachineLearning 论文

摘要

本文提出了一种用于大语言模型的快慢训练框架,该框架结合参数更新与上下文优化,以提高样本效率并减少持续学习过程中的灾难性遗忘。

大型语言模型(LLMs)通过更新参数(例如通过强化学习)来针对下游任务进行训练。然而,更新参数迫使模型吸收特定任务的信息,这可能导致灾难性遗忘以及可塑性的丧失。相比之下,使用固定参数的上下文学习可以廉价且快速地适应特定任务的需求(例如提示优化),但通常无法单独达到通过更新参数所能获得的性能提升。没有充分的理由将学习限制为仅在上下文或仅在权重中进行。此外,人类的学习也可能发生在不同的时间尺度上(例如系统1与系统2)。为此,我们为大语言模型引入了一种快慢学习框架,将模型参数视为“慢”权重,将优化的上下文视为“快”权重。这些“快”权重可以从文本反馈中学习以吸收特定任务的信息,同时允许“慢”权重更接近基础模型并保持一般的推理行为。在各种推理任务中,快慢训练(FST)的样本效率比仅进行慢速学习(强化学习)高出多达3倍,并且始终达到更高的性能渐近线。此外,经过FST训练的模型更贴近基础大语言模型(KL散度减少多达70%),从而比强化学习训练产生更少的灾难性遗忘。这种减少的漂移也保留了可塑性:在完成一个任务的训练后,FST训练的模型比仅训练参数的模型能更有效地适应后续任务。在任务域随时变化的持续学习场景中,FST能够持续掌握每个新任务,而仅基于参数的强化学习则会停滞不前。[https://arxiv.org/abs/2605.12484v1](https://arxiv.org/abs/2605.12484v1)
查看原文

相似文章

学习,快与慢:走向持续适应的LLMs

Hugging Face Daily Papers

一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。

从历史到状态:面向 LLM 智能体的恒定上下文技能学习

arXiv cs.AI

本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。

JumpLoRA:大语言模型持续学习的稀疏适配器

arXiv cs.CL

JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。