学习,快与慢:走向持续适应的LLMs

Hugging Face Daily Papers 论文

摘要

一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。

大语言模型(LLMs)通过更新参数(例如通过强化学习)来训练下游任务。然而,更新参数会迫使它们吸收特定任务信息,从而导致灾难性遗忘和可塑性丧失。相比之下,使用固定LLM参数的上下文学习可以廉价且快速地适应任务特定需求(例如提示优化),但通常无法单独匹敌通过更新LLM参数所能获得的性能提升。没有充分的理由将学习限制为仅上下文或仅权重学习。此外,人类也很可能在不同时间尺度上学习(例如系统1与系统2)。为此,我们提出了一种针对LLMs的快慢学习框架,其中模型参数作为“慢”权重,优化后的上下文作为“快”权重。这些快“权重”可以从文本反馈中学习以吸收任务特定信息,同时允许慢权重保持更接近基础模型并维持通用推理行为。快慢训练(FST)在推理任务上的样本效率比单纯慢学习(RL)高出多达3倍,并始终达到更高的性能渐近线。此外,经过FST训练的模型更接近基础LLM(KL散度降低多达70%),由此相比RL训练产生的灾难性遗忘更少。这种降低的漂移还保留了可塑性:在完成一个任务训练后,FST训练的模型相比纯参数训练的模型能更有效地适应后续任务。在任务领域实时变化的持续学习场景中,FST能持续获取每个新任务,而纯参数RL则陷入停滞。
查看原文
查看缓存全文

缓存时间: 2026/05/13 20:14

论文页面 - 学习,快与慢:迈向持续自适应的大语言模型

来源:https://huggingface.co/papers/2605.12484

摘要

一种用于大语言模型的快慢学习框架,将固定参数与优化的上下文相结合,以在持续学习场景中实现更高的样本效率、减少灾难性遗忘并提高适应性。

大语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLMs)通过更新其参数(例如,通过强化学习)来针对下游任务进行训练。然而,更新参数迫使模型吸收任务特定信息,这可能导致灾难性遗忘(https://huggingface.co/papers?q=catastrophic%20forgetting)和可塑性丧失。相比之下,基于固定 LLM 参数的上下文学习(https://huggingface.co/papers?q=in-context%20learning)可以廉价且快速地适应任务特定需求(例如,提示优化),但其本身通常无法达到通过更新 LLM 参数所能获得的性能提升。没有充分理由将学习限制为仅在上下文中或仅在权重中进行。此外,人类可能也以不同的时间尺度学习(例如,系统1 vs 系统2)。为此,我们引入了一种用于 LLMs 的快慢学习框架(https://huggingface.co/papers?q=fast-slow%20learning%20framework),其中模型参数作为“慢”权重,优化的上下文作为“快”权重。这些快“权重”可以从文本反馈中学习,以吸收任务特定信息,同时允许慢权重(https://huggingface.co/papers?q=slow%20weights)更接近基础模型并保持通用推理行为。快慢训练(FST)在推理任务上的样本效率比仅慢学习(RL)高出3倍,同时持续达到更高的性能天花板。此外,经过 FST 训练的模型更接近基础 LLM(KL 散度(https://huggingface.co/papers?q=KL%20divergence)减少高达70%),从而比 RL 训练产生更少的灾难性遗忘(https://huggingface.co/papers?q=catastrophic%20forgetting)。这种减少的漂移还保留了可塑性:在完成一个任务训练后,FST 训练的模型比仅参数训练的模型能更有效地适应后续任务。在持续学习(https://huggingface.co/papers?q=continual%20learning)场景中,当任务域动态变化时,FST 继续获取每个新任务,而仅参数 RL 则停滞不前。

查看 arXiv 页面(https://arxiv.org/abs/2605.12484)查看 PDF(https://arxiv.org/pdf/2605.12484)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12484)

在你的 agent 中获取此论文:

hf papers read 2605.12484

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.12484 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.12484 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.12484 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

从权重到特征:SAE引导的激活正则化用于LLM持续学习

arXiv cs.LG

本文提出了一种用于大语言模型的持续学习方法,该方法使用预训练的稀疏自编码器(SAEs)在激活空间而非权重空间中进行正则化,从而在无需存储先前数据的同时避免灾难性遗忘,并实现了更好的内存效率和更强的基准性能。

从历史到状态:面向 LLM 智能体的恒定上下文技能学习

arXiv cs.AI

本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。