CASCADE:大语言模型在部署期间的基于案例的持续自适应
摘要
本文介绍了 CASCADE,这是一个部署时学习框架,允许大型语言模型通过情境记忆和上下文赌博机优化实现持续自适应,而无需修改模型参数。
查看缓存全文
缓存时间: 2026/05/11 02:43
论文页面 - CASCADE:大型语言模型部署期间的基于案例的持续适应
来源:https://huggingface.co/papers/2605.06702
摘要
部署时学习(Deployment-time learning)使大型语言模型智能体能够通过情景记忆(episodic memory)和上下文多臂老虎机优化(contextual bandit optimization)在运行期间持续适应,从而在各种任务中提升性能。
大型语言模型(LLMs)已成为现代人工智能的核心基础,但其生命周期仍受限于训练与部署之间的严格分离,部署后学习过程实际上便停止了。这一局限性与自然智能形成鲜明对比,后者通过与环境交互不断适应。在本文中,我们将部署时学习(DTL)形式化为 LLM 生命周期的第三阶段,使 LLM 智能体能够在部署期间从经验中获益而无需修改模型参数。我们提出了 CASCADE(部署期间的基于案例的持续适应,CASe-based Continual Adaptation During DEployment),这是一个通用且严谨的框架,为 LLM 智能体配备了一个显式的、不断演化的情景记忆。CASCADE 将经验复用形式化为上下文多臂老虎机问题,实现了原则性的探索与利用权衡,并在长期交互中建立了无遗憾(no-regret)保证。这种设计允许智能体积累、选择并优化与任务相关的案例,将过去的经验转化为可操作的知识。在涵盖医疗诊断、法律分析、代码生成、网络搜索、工具使用以及具身交互的 16 项多样化任务中,CASCADE 将宏观平均成功率提高了 20.9%(相较于零样本提示),并始终优于基于梯度和基于记忆的基线方法。通过将部署重新定义为一种自适应学习过程,这项工作为持续改进的人工智能系统奠定了基础。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06702)查看 PDF (https://arxiv.org/pdf/2605.06702)GitHub1 (https://github.com/guosyjlu/CASCADE)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.06702)
在您的智能体中获取此论文:
hf papers read 2605\.06702
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.06702 即可从此页面建立链接。
引用此论文的数据集1
guosy/DTLBench 查看器• 更新于1小时前 • 32.7k • 103 (https://huggingface.co/datasets/guosy/DTLBench)
引用此论文的 Spaces0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.06702 即可从此页面建立链接。
包含此论文的合集0
没有包含此论文的合集
将此论文添加到合集 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
面向大型语言模型归因引导的持续学习
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。
ReAD:面向大型语言模型的强化引导能力蒸馏
本文提出了 ReAD,这是一种强化引导的能力蒸馏框架,通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比,该方法在提升下游效用的同时,减少了有害溢出。
自巩固语言模型:从上下文中持续整合知识
本文介绍了自巩固语言模型(SCoL),这是一种利用元强化学习将当前上下文写入模型权重以实现持续知识整合的框架。实验表明,在问答任务和长上下文巩固任务中,该方法在知识获取和保留方面均优于基线方法。
快慢学习:迈向持续适应的大语言模型 [R]
本文提出了一种用于大语言模型的快慢训练框架,该框架结合参数更新与上下文优化,以提高样本效率并减少持续学习过程中的灾难性遗忘。
JumpLoRA:大语言模型持续学习的稀疏适配器
JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。