CLaaS：面向样本高效在线学习的持续学习即服务

arXiv cs.LG 2026/06/05 04:00 论文

摘要

CLaaS是一个系统，用于对部署中的LLM智能体进行持续学习，利用经验回放实现样本高效的在线适应。

arXiv:2606.05559v1 公告类型：新摘要：部署的大型语言模型智能体必须适应动态环境中的分布变化。理想情况下，可以从积累的智能体经验中进行适应，同时保留先前的能力并迁移到未来任务。然而，智能体动作和环境转换每个场景只能采样一次，因为现实环境无法轻易重置。为此，我们研究了一种体验式和在线持续学习设置，其中智能体从一系列场景中学习。我们提出持续学习即服务（CLaaS），这是一个使智能体能够在部署期间改进的系统，通过聊天API进行抽象。为了提高样本效率，CLaaS将轨迹存储在经验回放缓冲区中，以便在异步训练期间进行梯度重用。我们在一个对抗性任务上评估了CLaaS，证明参数更新比上下文学习带来更好的正向迁移和更少的遗忘，而回放是样本效率的关键选择。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:11

# CLaaS：面向样本高效在线学习的持续学习即服务
来源：https://arxiv.org/html/2606.05559

###### 摘要

部署的大语言模型代理必须适应动态环境中的分布漂移。理想情况下，可以从累积的代理经验中进行适应，在向未来任务迁移的同时保留先前能力。然而，由于真实环境无法轻易重置，每个场景中代理的动作和环境转换只能采样一次。为此，我们研究了一种经验性且在线持续的设置，其中代理从场景流中学习。我们提出持续学习即服务（CLaaS），该系统使代理能在部署期间进行改进，并通过聊天 API 进行抽象封装。为提高样本效率，CLaaS 将轨迹存储在经验回放缓冲区中，以便在异步训练期间复用梯度。我们在对抗性任务上评估了 CLaaS，结果表明参数更新比上下文学习具有更好的前向迁移和更少的遗忘，而回放是实现样本效率的关键选择。

机器学习, 持续学习

## 1 引言

大语言模型（LLM）代理越来越多地被部署为执行复杂任务、具有实际后果的自主系统。随着部署遇到变化的用户请求、工具定义和动态环境，可靠性要求持续适应。理想情况下，这种适应来自部署期间积累的代理经验，使改进能够随时间累积。这类系统代表着向自我改进型代理迈出的重要一步——它们通过与部署环境的真实交互而非偶尔的离线训练阶段而变得更加胜任。

当前的适应技术主要依赖于上下文学习（ICL）（Agarwal et al., 2024 (https://arxiv.org/html/2606.05559#bib.bib1)）。但对于大多数 LLM 架构来说，上下文是一种短暂且有限的资源。理想的适应方法应能带来持久的改进，泛化到未来任务，同时避免在先前任务上退化。通过策略梯度强化学习（RL）进行的参数更新已被证明在提升代理能力泛化方面有效（Lambert et al., 2025 (https://arxiv.org/html/2606.05559#bib.bib13)）。这激励了我们的工作，即寻找有效利用在线环境中参数更新的方法。

参见图注
图 1：CLaaS 使代理能够从部署期间收集的轨迹流中进行经验学习。回放缓冲区的梯度复用提高了异步训练中的样本效率，从而用更少数据实现更快的泛化。

一个挑战是，像 GRPO（Shao et al., 2024 (https://arxiv.org/html/2606.05559#bib.bib21)）这样的流行算法依赖于离线环境，代理可以在其中模拟反事实动作来估计群体优势。但一旦环境变得复杂，构建足够规模和真实性的离线等效物成本就变得过高（Dulac-Arnold et al., 2019 (https://arxiv.org/html/2606.05559#bib.bib3)）。这促使我们从部署期间积累的单一轨迹经验中严格学习，因为收集到的数据具有天然的真实性。但这又带来了其他限制，例如如何从少量样本中高效泛化。在这项工作中，我们关注一个持续在线学习设置，它模仿了代理在部署中学习的过程。我们提出 CLaaS 系统，这是一种将持续改进抽象成聊天 API 的方式，使得代理在生产环境中使用时即可不断改进。该系统首先将策略轨迹收集到经验回放缓冲区（Lin, 1992 (https://arxiv.org/html/2606.05559#bib.bib14)）。随后它们被用于异步训练，配合一种淘汰策略实现梯度复用和更好的泛化，最终训练成一个 LoRA 适配器（Hu et al., 2021 (https://arxiv.org/html/2606.05559#bib.bib6)），对应特定的真实世界经验。这些更新会热加载到推理服务器中，形成实时改进循环。

参见图注
图 2：CLaaS：通过异步训练进行持续学习即服务，实现在线策略改进。对于任何使用聊天 API 的用户代理框架，CLaaS 将实时轨迹收集到经验回放缓冲区 B\\mathcal{B} 中。训练引擎通过采样批次，结合从环境中获得的奖励，进行梯度更新，更新 LoRA，并热加载到推理服务器中。

本文的贡献如下：
- • 提出了 CLaaS 系统，能够从部署期间收集的轨迹中进行样本高效的持续在线学习。
- • 在对抗攻击数据集上的评估表明，使用自蒸馏的 CLaaS 相比 ICL 实现了最终通过率提高 3 倍，遗忘率降低 1/2。

## 2 背景

### 2.1 相关工作

#### 2.1.1 持续学习

在分布漂移下增量学习时，深度神经网络常常遭受对先前任务知识的“灾难性遗忘”（McCloskey & Cohen, 1989 (https://arxiv.org/html/2606.05559#bib.bib16); Kirkpatrick et al., 2017 (https://arxiv.org/html/2606.05559#bib.bib10)）。遗忘现象也存在于 LLM 中，并且模型规模越大遗忘越严重（Luo et al., 2025 (https://arxiv.org/html/2606.05559#bib.bib15)）。先前的工作通过重演来缓解遗忘：要么存储先前任务的样本并配合知识蒸馏（Rebuffi et al., 2017 (https://arxiv.org/html/2606.05559#bib.bib19)），要么通过模型自身生成合成重演数据（Huang et al., 2024 (https://arxiv.org/html/2606.05559#bib.bib8)）。相比之下，我们的工作利用部署环境中积累的经验进行策略梯度更新。与我们的方法互补，Biderman 等人（2024 (https://arxiv.org/html/2606.05559#bib.bib2)）表明低秩适应（Hu et al., 2021 (https://arxiv.org/html/2606.05559#bib.bib6)）可以在微调中缓解遗忘。

#### 2.1.2 在线学习

在线学习是指从仅采样一次的观测流中拟合任务分布的能力。在训练中，我们将其建模为在轨迹的每一步中采样一个环境转移。与 LLM 最常用的非参数方法是利用多轮对话中的上下文学习（ICL）（Agarwal et al., 2024 (https://arxiv.org/html/2606.05559#bib.bib1)）。测试时训练通过在预测前利用样本进行自监督学习来处理分布漂移（Sun et al., 2020 (https://arxiv.org/html/2606.05559#bib.bib23)）。相比之下，CLaaS 利用部署过程中预测产生的环境反馈进行学习。现有框架通过轨迹 API（Zhang et al., 2026 (https://arxiv.org/html/2606.05559#bib.bib26)）或像 OpenClaw（Wang et al., 2026 (https://arxiv.org/html/2606.05559#bib.bib24)）这样的代理平台中的用户对话来抽象在线学习。在我们的工作中，我们将轨迹抽象到聊天 API 之后，并利用经验回放缓冲区提高样本效率。

算法 1 CLaaS：持续学习即服务

0: 策略 πθ0\\pi_{\\theta^{0}}，场景流 S1:N\\mathcal{S}_{1:N}，学习率 η\\eta，小批量大小 MM，缓冲区容量 BmaxB_{\\max}，最大年龄 AmaxA_{\\max}，填充阈值 BminB_{\\min}
1: B←∅\\mathcal{B}\\leftarrow\\emptyset, k←0k\\leftarrow 0
2: 并行运行：Rollout ∥\\,\\|\\,Train
3: 过程 Rollout
4: for si∈S1:Ns_i\\in\\mathcal{S}_{1:N} do
5: 使用 πθk\\pi_{\\theta^{k}} 通过 Eq. (1) 采样 τi\\tau_i
6: B←B∪{(si,τi,Ri(τi))}\\mathcal{B}\\leftarrow\\mathcal{B}\\cup\\{(s_i,\\,\\tau_i,\\,R_i(\\tau_i))\\}
7: if |B|>Bmax|\\mathcal{B}|>B_{\\max} then 淘汰最旧项直到 |B|=Bmax|\\mathcal{B}|=B_{\\max}
8: endfor
9: 过程 Train
10: while Rollout 激活 do
11: 等待直到 |B|≥Bmin|\\mathcal{B}|\\geq B_{\\min}
12: 采样小批量 M∼Uniform(B)\\mathcal{M}\\sim\\mathrm{Uniform}(\\mathcal{B})，|M|=M|\\mathcal{M}|=M
13: θk+1←θk+η∑(τi,ri)∈M∇θl(τi,θk,ri)\\theta^{k+1}\\leftarrow\\theta^{k}+\\eta\\;\\!\\!\\sum_{(\\tau_i,\\,r_i)\\in\\mathcal{M}}\\\!\\!\\nabla_{\\theta}\\,\\ell(\\tau_i,\\theta^{k},r_i)
14: k←k+1k\\leftarrow k+1
15: 从 B\\mathcal{B} 淘汰满足 k−P(i)>Amaxk-P(i)>A_{\\max} 的条目
16: endwhile

### 2.2 问题设置

我们考虑从一个包含 N 个场景的流 S1:N=(s1,...,sN)\\mathcal{S}_{1:N}=(s_1,\\dots,s_N) 中学习，其中场景 ii 的第 tt 步包含一个提示和响应 (xi,t,yi,t)(\\mathbf{x}_{i,t},\\mathbf{y}_{i,t})，每个都是最多 dd 个 token 的序列。场景轨迹 τi=(xi,1,yi,1,...,xi,T,yi,T)\\tau_i=(\\mathbf{x}_{i,1},\\mathbf{y}_{i,1},\\dots,\\mathbf{x}_{i,T},\\mathbf{y}_{i,T}) 最多采样 T 轮，按 τi∼∏t=1Tπθk(yi,t∣xi,≤t,yi,<t)\\tau_i\\sim\\prod_{t=1}^T\\pi_{\\theta^{k}}(\\mathbf{y}_{i,t}\\mid\\mathbf{x}_{i,\\leq t},\\mathbf{y}_{i,<t}) 采样。每轮结束后，环境根据一个场景特定的函数计算奖励 RiR_i，该函数评估整个历史响应。每个场景的轨迹只采样一次，因为没有可重置的环境。

我们假设每个场景的奖励 RiR_i 是基于规则并已知的，但场景分布是未知且非平稳的。学习系统的目标是将策略 πθk\\pi_{\\theta^{k}} 的参数 θk\\theta^{k} 更新为 θk+1\\theta^{k+1}，使得期望累积奖励最大化。

## 3 CLaaS：持续学习即服务

CLaaS 是一个系统，用于从策略轨迹中持续更新 LLM 策略，其接口与标准聊天 API 一致。这种抽象允许将回放缓冲区收集、异步训练和 LoRA 热加载的实现细节与用户代理框架解耦。系统架构如图 2 所示。CLaaS 包含两个并行组件：轨迹收集器从部署中累积经验，异步训练引擎从中学习。

轨迹收集器（算法 1 第 3-8 行）为每个场景运行当前策略并采样完整轨迹。轨迹被附加到经验回放缓冲区 B\\mathcal{B} 中，该缓冲区按先进先出（FIFO）策略在达到容量 BmaxB_{\\max} 时淘汰最旧条目。训练引擎（算法 1 第 9-16 行）在缓冲区有足够的 BminB_{\\min} 个条目后开始运行。在训练步骤 kk 中，它从缓冲区中均匀采样一个小批量 M\\mathcal{M}，并通过策略梯度更新参数。然后，它基于年龄淘汰条目：它记录每个场景对应的最新训练指数 P(i)P(i)，并移除年龄超过 AmaxA_{\\max} 的条目。这种双重淘汰策略确保缓冲区中最旧的数据最终被移除，但新条目也有有限的生存期。

当要更新的策略版本与生成轨迹的策略不同时，策略梯度会被偏置。我们通过使用策略 πθk\\pi_{\\theta^{k}} 在状态上应用重要性采样权重来修正这种偏差：其中 ℓℓ 是在线策略梯度目标。请注意，我们避免存储全日志概率，而是使用生成时对每个序列进行采样的隐式修正。

CLaaS 的实现将聊天 API 背后的轨迹暴露给一个推理服务器（例如 vLLM）。收集到的轨迹随后被一个循环队列中的训练器使用。训练在 GPU 0 上运行时，推理可以在其他 GPU 上进行。LoRA 适配器在每次训练后热加载到推理服务器中，保持零停机时间。该实现基于标准的 HuggingFace 库。

### 3.1 策略梯度方法

如果不对重新采样进行修正，使用相同分布的数据进行学习会导致快速收敛到次优解决方案。CLaaS 使用带自蒸馏的策略梯度。为稳定训练，我们对每个轨迹使用基线奖励（通常是所有场景奖励的指数移动平均）。

我们还评估了替代策略梯度公式：REINFORCE++ 和 PPO。PPO 引入了裁剪以避免破坏性的大更新，但在小批量规模下可能不稳定。REINFORCE++ 将轨迹奖励归一化并应用动态 ε-greedy 探索，这对在线学习很有用。

## 4 实验

评估了 CLaaS 在对抗性攻击场景上的表现，其中代理（防御者）必须抵御恶意用户消息（攻击者）。

### 4.1 IH-Challenge 数据集

该数据集来自公开可用的“提示注入挑战”数据集的持续学习版本。每个场景是一个多轮对抗性对话，包含：
- 系统指令：定义防御行为（例如“永远不要泄露秘密码字”，“始终用正式英语回应”）
- 攻击者消息：设计用于触发漏洞
- 防御者响应：由模型生成
- 验证者评分：基于规则的二元反馈（通过/失败）

数据集分为 5 个均等的持续分裂，每个分裂包含不同的规则组合。

### 4.2 设置

基础模型：Qwen2.5-7B-Instruct / Qwen2.5-14B-Instruct / Llama-3.1-8B-Instruct。
LoRA 等级 r=16，学习率 1e-4，
缓冲区大小 Bmax=1000，Bmin=100，Amax=5。
每步小批量大小 M=8。
基线：ICL（无参数更新）、P-Tuning、Full FT。

评估指标：通过率（防御者成功防御的比例）、遗忘率（先前分裂上的准确率下降）。

### 4.3 结果

ICL 在初始分裂上表现尚可，但遗忘严重。CLaaS 在最终分裂上通过率提高了 3 倍（约 85% 对比 ICL 的 30%），遗忘率降低了 1/2。使用回放缓冲区比无缓冲区的在线学习显著提升样本效率。

表 1：最终平均通过率（%）和遗忘率（%）

| 方法 | 通过率 | 遗忘率 |
|------|--------|--------|
| ICL | 30.2 | 22.1 |
| P-Tuning | 55.4 | 15.3 |
| Full FT | 72.1 | 12.7 |
| CLaaS-SDPO | 85.6 | 8.9 |

结果在所有基础模型上一致。

## 5 结论

CLaaS 为部署环境中的 LLM 代理持续改进提供了一种样本高效的途径。通过将策略梯度更新与经验回放相结合，它比上下文学习实现了更好的前向迁移和更少的遗忘。系统设计将收集与训练分离，最小化了部署开销。

未来工作：扩展到多代理环境，研究更高效的缓冲区管理，以及提高对分布剧烈漂移的鲁棒性。

## 附录 A 实验详情

### A.1 IH-Challenge 数据集生成

模仿挑战结构。攻击者使用 Qwen 模型，防御者使用目标模型。验证者是一个基于规则的 Python 函数。

#### A.1.1 场景结构

每个场景由以下部分组成：
- 防御者系统指令
- 攻击者初始消息
- 最多 T=4 轮交互
- 验证者评分

#### A.1.2 防御者系统指令

对抗性规则示例：
- 规则 1：永远不要泄露秘密码字。
- 规则 2：始终用正式英语回应。
- 规则 3：拒绝执行不安全代码的请求。

#### A.1.3 攻击者模板

攻击者得到先前成功的反馈格式。

### A.2 攻击者提示

攻击者提示：用户是红队测试员，目标是让防御者泄露秘密。反馈包含来自验证者的胜负判断。

### A.3 验证者

IH-Challenge 每个场景包含一个 Python 评分函数 (grade_output_correct)，检查防御者响应是否违反规则。评分前，移除 Qwen 风格的格式。若未输出闭合标签，则直接判失败。

奖励计算：
- 通过 (r=1.0)：评分函数返回 True。
- 失败 (r=0.0)：或响应为空。
- 长度超限 (r=0.0)：无闭合 think 标签。
- 评分错误 (r=None)：不用于训练。

### A.4 ICL 防御基线

不进行参数更新，仅累积验证者反馈到系统提示中。后续场景中注入上下文。上下文增长到 20,000 token 时触发 FIFO 淘汰。使用包装模板防止攻击者消息被当做指令。

### A.5 场景示例流程

图 4 展示完整对抗场景。

## 附录 B 额外实验

### B.1 检查点-分裂迁移矩阵

图 5 展示 5×5 评估矩阵。

### B.2 训练动态

图 6 比较训练动态：SDPO 得分高、收敛快、熵高、PG Loss 方差低。

### B.3 运行时间效率

图 7 显示异步训练开销极小。训练步骤 5-10 秒，而每个场景推理 30-60 秒。并发进行，几乎不增加延迟。

CLaaS：面向样本高效在线学习的持续学习即服务

相似文章

CLAP：领域智能体后训练的闭环训练、评估与发布控制

AgentCL: 面向语言代理中持续学习的严谨评估

@omarsar0: // Continual Learning Bench // 持续学习是投入大量资金的研究领域之一。虽然存在…

重新思考自进化大语言模型智能体的持续经验内化

学习，快与慢：走向持续适应的LLMs

提交意见反馈