学习，快与慢：走向持续适应的LLMs

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

一种针对LLMs的快慢学习框架，将固定的慢权重与优化的快上下文权重相结合，在持续学习场景中实现了高达3倍的样本效率提升，并减少了灾难性遗忘。

大语言模型（LLMs）通过更新参数（例如通过强化学习）来训练下游任务。然而，更新参数会迫使它们吸收特定任务信息，从而导致灾难性遗忘和可塑性丧失。相比之下，使用固定LLM参数的上下文学习可以廉价且快速地适应任务特定需求（例如提示优化），但通常无法单独匹敌通过更新LLM参数所能获得的性能提升。没有充分的理由将学习限制为仅上下文或仅权重学习。此外，人类也很可能在不同时间尺度上学习（例如系统1与系统2）。为此，我们提出了一种针对LLMs的快慢学习框架，其中模型参数作为“慢”权重，优化后的上下文作为“快”权重。这些快“权重”可以从文本反馈中学习以吸收任务特定信息，同时允许慢权重保持更接近基础模型并维持通用推理行为。快慢训练（FST）在推理任务上的样本效率比单纯慢学习（RL）高出多达3倍，并始终达到更高的性能渐近线。此外，经过FST训练的模型更接近基础LLM（KL散度降低多达70%），由此相比RL训练产生的灾难性遗忘更少。这种降低的漂移还保留了可塑性：在完成一个任务训练后，FST训练的模型相比纯参数训练的模型能更有效地适应后续任务。在任务领域实时变化的持续学习场景中，FST能持续获取每个新任务，而纯参数RL则陷入停滞。

查看原文

查看缓存全文

缓存时间: 2026/05/13 20:14

论文页面 - 学习，快与慢：迈向持续自适应的大语言模型

来源：https://huggingface.co/papers/2605.12484

摘要

一种用于大语言模型的快慢学习框架，将固定参数与优化的上下文相结合，以在持续学习场景中实现更高的样本效率、减少灾难性遗忘并提高适应性。

大语言模型（https://huggingface.co/papers?q=Large%20language%20models）（LLMs）通过更新其参数（例如，通过强化学习）来针对下游任务进行训练。然而，更新参数迫使模型吸收任务特定信息，这可能导致灾难性遗忘（https://huggingface.co/papers?q=catastrophic%20forgetting）和可塑性丧失。相比之下，基于固定 LLM 参数的上下文学习（https://huggingface.co/papers?q=in-context%20learning）可以廉价且快速地适应任务特定需求（例如，提示优化），但其本身通常无法达到通过更新 LLM 参数所能获得的性能提升。没有充分理由将学习限制为仅在上下文中或仅在权重中进行。此外，人类可能也以不同的时间尺度学习（例如，系统1 vs 系统2）。为此，我们引入了一种用于 LLMs 的快慢学习框架（https://huggingface.co/papers?q=fast-slow%20learning%20framework），其中模型参数作为“慢”权重，优化的上下文作为“快”权重。这些快“权重”可以从文本反馈中学习，以吸收任务特定信息，同时允许慢权重（https://huggingface.co/papers?q=slow%20weights）更接近基础模型并保持通用推理行为。快慢训练（FST）在推理任务上的样本效率比仅慢学习（RL）高出3倍，同时持续达到更高的性能天花板。此外，经过 FST 训练的模型更接近基础 LLM（KL 散度（https://huggingface.co/papers?q=KL%20divergence）减少高达70%），从而比 RL 训练产生更少的灾难性遗忘（https://huggingface.co/papers?q=catastrophic%20forgetting）。这种减少的漂移还保留了可塑性：在完成一个任务训练后，FST 训练的模型比仅参数训练的模型能更有效地适应后续任务。在持续学习（https://huggingface.co/papers?q=continual%20learning）场景中，当任务域动态变化时，FST 继续获取每个新任务，而仅参数 RL 则停滞不前。

查看 arXiv 页面（https://arxiv.org/abs/2605.12484）查看 PDF（https://arxiv.org/pdf/2605.12484）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.12484）

在你的 agent 中获取此论文：

hf papers read 2605.12484

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.12484 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.12484 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.12484 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

学习，快与慢：走向持续适应的LLMs

论文页面 - 学习，快与慢：迈向持续自适应的大语言模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

快慢学习：迈向持续适应的大语言模型 [R]

@LakshyAAAgrawal: 从丰富的文本反馈（错误、轨迹、部分推理）中学习，对于LLM优化来说，优于仅使用标量奖励。…

从权重到特征：SAE引导的激活正则化用于LLM持续学习

无需GPU的LLMs个人持续学习——立场论文[OC]

从历史到状态：面向 LLM 智能体的恒定上下文技能学习

提交意见反馈