学习,快与慢:走向持续适应的LLMs
摘要
一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。
查看缓存全文
缓存时间: 2026/05/13 20:14
论文页面 - 学习,快与慢:迈向持续自适应的大语言模型
来源:https://huggingface.co/papers/2605.12484
摘要
一种用于大语言模型的快慢学习框架,将固定参数与优化的上下文相结合,以在持续学习场景中实现更高的样本效率、减少灾难性遗忘并提高适应性。
大语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLMs)通过更新其参数(例如,通过强化学习)来针对下游任务进行训练。然而,更新参数迫使模型吸收任务特定信息,这可能导致灾难性遗忘(https://huggingface.co/papers?q=catastrophic%20forgetting)和可塑性丧失。相比之下,基于固定 LLM 参数的上下文学习(https://huggingface.co/papers?q=in-context%20learning)可以廉价且快速地适应任务特定需求(例如,提示优化),但其本身通常无法达到通过更新 LLM 参数所能获得的性能提升。没有充分理由将学习限制为仅在上下文中或仅在权重中进行。此外,人类可能也以不同的时间尺度学习(例如,系统1 vs 系统2)。为此,我们引入了一种用于 LLMs 的快慢学习框架(https://huggingface.co/papers?q=fast-slow%20learning%20framework),其中模型参数作为“慢”权重,优化的上下文作为“快”权重。这些快“权重”可以从文本反馈中学习,以吸收任务特定信息,同时允许慢权重(https://huggingface.co/papers?q=slow%20weights)更接近基础模型并保持通用推理行为。快慢训练(FST)在推理任务上的样本效率比仅慢学习(RL)高出3倍,同时持续达到更高的性能天花板。此外,经过 FST 训练的模型更接近基础 LLM(KL 散度(https://huggingface.co/papers?q=KL%20divergence)减少高达70%),从而比 RL 训练产生更少的灾难性遗忘(https://huggingface.co/papers?q=catastrophic%20forgetting)。这种减少的漂移还保留了可塑性:在完成一个任务训练后,FST 训练的模型比仅参数训练的模型能更有效地适应后续任务。在持续学习(https://huggingface.co/papers?q=continual%20learning)场景中,当任务域动态变化时,FST 继续获取每个新任务,而仅参数 RL 则停滞不前。
查看 arXiv 页面(https://arxiv.org/abs/2605.12484)查看 PDF(https://arxiv.org/pdf/2605.12484)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12484)
在你的 agent 中获取此论文:
hf papers read 2605.12484
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.12484 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.12484 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.12484 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
快慢学习:迈向持续适应的大语言模型 [R]
本文提出了一种用于大语言模型的快慢训练框架,该框架结合参数更新与上下文优化,以提高样本效率并减少持续学习过程中的灾难性遗忘。
@LakshyAAAgrawal: 从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。…
快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。
从权重到特征:SAE引导的激活正则化用于LLM持续学习
本文提出了一种用于大语言模型的持续学习方法,该方法使用预训练的稀疏自编码器(SAEs)在激活空间而非权重空间中进行正则化,从而在无需存储先前数据的同时避免灾难性遗忘,并实现了更好的内存效率和更强的基准性能。
无需GPU的LLMs个人持续学习——立场论文[OC]
作者提出了两种架构,即内部KV-Sphere架构(IKSA)和背景微调(BMFT),使得LLMs能够从个人互动中持续学习,无需GPU且无灾难性遗忘。
从历史到状态:面向 LLM 智能体的恒定上下文技能学习
本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。