SOLAR: 一种自我优化的开放式自主代理,用于终身学习与持续适应

arXiv cs.AI 论文

摘要

SOLAR提出了一种自我优化的自主代理,利用参数级元学习和多层次强化学习,使LLMs能够对非平稳数据流进行终身适应,在推理任务上超越基线。

arXiv:2605.20189v1 公告类型:新 摘要:尽管大语言模型(LLMs)取得了显著成功,但在动态真实世界环境中部署时仍面临瓶颈,主要挑战是概念漂移和基于梯度的适应的高成本。传统的微调(FT)难以适应非平稳数据流,要么导致灾难性遗忘,要么需要大量人工数据整理。为了解决流式学习和持续学习范式中的这些局限性,我们提出了自我优化的终身自主推理器(SOLAR),它是一种开放式自主代理,利用参数级元学习进行自我改进,将模型权重视为探索环境。它通过整合常识知识的强先验来启动过程,使其对迁移学习有效。通过利用多层次强化学习方法,SOLAR自主发现适应策略,实现对未见领域的高效测试时适应。关键的是,SOLAR维护一个不断演变的有效修改策略知识库,隐式充当情景记忆缓冲,以平衡可塑性(适应新任务)和稳定性(保留元知识)。实验表明,SOLAR在常识、数学、医学、编码、社会和逻辑推理任务上均优于强基线,标志着向能够在不断变化的环境中实现终身适应的自主代理迈出了重要一步。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:46

# SOLAR:一种用于终身学习与持续自适应的自优化开放式自主智能体
来源:https://arxiv.org/html/2605.20189
\\copyrightclause

本文版权归作者所有。依据知识共享署名4.0国际许可协议(CC BY 4.0)进行许可。

\\conference

第1届流式持续学习桥接会议,AAAI26,2026年1月21日,新加坡。

\[orcid=0009-0003-6542-324X, [email protected], url=https://github.com/nitinvetcha/, \]\\cormark\[1\]

\[orcid=0000-0002-3042-9161, [email protected], url=https://www.asintelligence.xyz/, \]

\\cortext

\[1\]通讯作者。

Nitin Vetcha
眼科系,杨潞龄医学院,新加坡国立大学,新加坡
计算与数据科学系,印度科学研究所,班加罗尔,卡纳塔克邦,印度

(2026年)

###### 摘要

尽管大型语言模型(LLM)取得了显著成功,但在动态的真实世界环境中部署时,仍面临概念漂移和基于梯度的适应成本高昂等主要瓶颈。传统的微调方法难以适应非平稳数据流,且易导致灾难性遗忘或需要大量人工数据策展。为了在流式与持续学习范式中克服这些局限,我们提出了自优化终身自主推理器(SOLAR),它是一种开放式自主智能体,利用参数级元学习实现自我改进,将模型权重视为可探索的环境。它首先通过整合常识知识的强先验,从而有效支持迁移学习。通过采用多层级强化学习方法,SOLAR自主发现适应策略,实现在测试阶段高效适应未见过的领域。关键在于,SOLAR维护一个不断演化的有效修改策略知识库,隐式地充当情景记忆缓冲区,以平衡可塑性(适应新任务)与稳定性(保留元知识)。实验表明,在常识推理、数学推理、医学推理、编码推理、社会推理和逻辑推理任务上,SOLAR均优于强基线方法,这标志着朝着能够在演变环境中实现终身适应的自主智能体迈出了重要一步。

###### 关键词:

持续适应\\sep终身学习\\sep自我演化\\sep测试时适应\\sep迁移学习\\sep大型语言模型

## 1 引言

大型语言模型(LLM)因大规模预训练而具备了卓越的涌现能力。然而,在流式环境中部署它们时,暴露了一个关键弱点:即无法在没有昂贵重训练或人工干预的情况下适应非平稳数据分布(概念漂移)。虽然参数高效微调(PEFT)技术如LoRA(Hu et al. 20222)减少了参数更新的规模,但它们仍然是静态解决方案,并未从根本上解决持续学习(CL)中核心的稳定性-可塑性困境。现有的适应策略通常依赖通用的人工启发式方法,无法在真实世界流中不断变化的时间依赖关系上泛化。这种脱节使得我们需要一个系统,它不仅能够即时调整参数,还能基于累积经验学习如何适应。我们提出,LLM的高维权重空间包含丰富的元知识,如果能够自主导航,就能为新颖任务生成定制的适应策略。这推动了我们的主要研究问题:

RQ:LLM能否学会自主修改其内部表征空间以处理概念漂移,类似于人类在终身学习场景中同化并重构知识的方式?

为了回答这个问题,我们研究了终身学习的认知科学。作为人类,我们不仅仅记忆新数据,而是重构内部图式,以便容纳新信息,同时保留先前的启发式方法。这个过程本质上使人类能够在非平稳环境中导航。例如,学生会根据新科目的性质调整学习策略(可塑性),而不会忘记如何一般地学习(稳定性)。相比之下,当前的LLM适应往往僵化,模型以“原样”方式消费任务数据,未能发展出定制的内部转换策略。为了复制这种认知灵活性,我们引入了SOLAR(自优化终身自主推理器)。它作为一个元学习智能体,将快速任务适应(流式机器学习)与长期策略保留(持续学习)解耦。通过发现并验证参数级修改,SOLAR能够高效适应未见过的任务,同时填充一个持久的知识库以减轻灾难性遗忘。因此,这项工作弥合了静态参数生成与动态、终身自我演化之间的鸿沟。此外,通过将搜索空间定位于神经网络权重,我们瞄准的是模型能力的泛化原则,而非任务特定的记忆。正如尺度定律(Kaplan et al. 2020)基于规模预测性能,我们假设存在可预测的权重修改模式,能够实现快速、数据高效的适应以应对概念漂移,最小化检测到分布偏移与部署更新后模型之间的延迟。本文其余部分组织如下:第2节详细阐述了我们方法的动机;第3节介绍文献综述;第4节阐述方法论;第5节给出实现细节;第6节提供实验结果;第7节给出总结性评述。

## 2 动机

我们的主要动机源于人类心理学和教育学。例如,考虑一个准备机器学习课程期末考试的人类学生。通常,学生会依赖先前准备的笔记进行备考。这些笔记往往来自讲座内容、教科书或互联网上的信息。因此,与其依赖原始内容,学生按照自身的内在推理能力和天赋来吸收并重写信息成为笔记。这提高了学生更好地理解内容的能力,从而能够很好地回答考试问题。这种以更容易理解的方式重新解释和增强外部知识,同时发展必要技能的现象,并不仅限于考试,似乎普遍适用于人类跨任务的学习。此外,根据个人兴趣,人类以不同方式吸收信息——有些人可能将信息浓缩成视觉图表,有些人则形成文本,或者有些人更依赖具体的数学描述。这种作为学习过程一部分的内部知识重构以及外部信息的同化或重写,与当前LLM训练和适应的方式形成对比。面对新任务,当前LLM通过微调或上下文学习以“原样”方式消费并从任务数据中学习。问题在于,就像在人类环境中一样,这类数据可能并非学习的最佳格式(或数量),或者可能尚未发展出相关的技能组来学习它,而当前方法不允许模型发展定制策略,以确定如何最好地在内部改造自身,甚至如何从训练数据中学习。因此,在这项工作中,我们研究了一个问题:LLM是否能够像人类一样,自己提出策略,使自身在给定任务上表现更好?

第二个动机来源是我们为什么将策略搜索空间定位于神经网络权重:与任务特定知识不同,权重级元知识代表了关于神经网络参数与模型能力之间关系的泛化原则,从而为自我演化智能体提供关键见解。已有若干先前研究显示,神经网络权重模式类型与下游模型性能特征之间存在正相关。例如,尺度定律研究\[kaplan2020scaling\]表明模型规模与性能之间存在可预测的关系。类似地,结构化稀疏学习也提示了特定权重模式如何有助于发展更高效的表征\[wen2016learning\]。

## 3 相关工作

**测试时训练**(TTT)是最近兴起的一类方法,它在推理时通过输入困惑度或交叉熵最小化等技术,仅利用无标签测试数据来更新模型权重,从而实现LLM的自我监督增强\[hu2025testtimelearninglargelanguage, hu2025slotsamplespecificlanguagemodel\];或者通过利用预训练模型中的先验知识进行强化学习\[zuo2025ttrltesttimereinforcementlearning\];或者借助反思和验证器驱动的样本选择\[moradi2025continuousselfimprovementlargelanguage, lee2025reviselearningrefinetesttime\];或者使用任务特定课程\[hübotter2025learningjobtesttimecurricula\];或者采用基于专家混合的模型合并\[bertolissi2025localmixturesexpertsessentially\]。另一种方法是在测试时扩展推理计算,例如使用集成方法如多数投票。虽然测试时方法是一个有前景的选择,但这种计算开销并非总是必要,而且在数据稀缺或无标签数据质量差的情况下往往失败。

**对抗性微调**是另一类新兴技术,其中两个LLM实例就某个话题进行辩论,或者一个实例作为挑战者/教师,另一个作为求解者/学生,以生成合成数据——无论是从无标签提示还是完全从零开始——并使用多数投票等方法创建伪标签,进而用于相应更新模型的知识\[yang2024syntheticcontinuedpretraining, wang2025selfupdatablelargelanguagemodels, wang2025lokilowdamageknowledgeimplanting\]。此外,还可以利用LLM上下文中已有的信息进行额外的微调\[park2025textitnewnewssystem2finetuning\],类似于知识蒸馏。近期工作包括SQLM\[chen2025self\]、R-Zero\[huang2025rzeroselfevolvingreasoningllm\]、TT-SI\[acikgoz2025selfimprovingllmagentstesttime\]、SIRLC\[pang2023languagemodelselfimprovementreinforcement\]。虽然这在TTT失败的数据稀缺领域是一种高效的方法,但并非总是高效,因为某些具有挑战性的领域需要掌握新颖的推理技能,而众所周知,在这些领域(如数学\[hendrycks2021measuringmathematicalproblemsolving\]),仅扩展数据是不够的。

**强化学习**(RL)是一种推动LLM能力的成熟方法。近期工作如SEAL\[zweiger2025selfadaptinglanguagemodels\]、RLAIF\[li2025curriculumrlaifcurriculumalignmentreinforcement\]、SRLM\[yuan2025selfrewardinglanguagemodels\]以及使用基于记忆的在线RL策略的Memento\[zhou2025mementofinetuningllmagents\],已经在低成本持续适应LLM方面显示出有希望的潜力。在RL中,**元学习**也被用于训练智能体在需要快速学习新任务的场景中\[gupta2018metareinforcementlearningstructuredexploration\]。因此,SOLAR可以看作是遵循元学习原则,因为它通过元优化循环学习适应策略,即如何生成有效的自我权重更新。密切相关的是**自指系统**,它们学习更新自身参数,如\[irie2022modernselfreferentialweightmatrix\];以及**自我演化智能体**,它们使LLM能够通过自主获取、精炼和学习模型自身生成的经验来即兴创作\[tao2024surveyselfevolutionlargelanguage, gao2025surveyselfevolvingagentspath\]。虽然基于RL的方法相当不错,但常常难以实现收敛,并且设计计算和时间上高效的优化策略也颇具挑战。

**参数生成**是另一个研究方向,已有若干开创性工作,如RPG\[wang2025recurrent\]、DnD\[liang2025drag\]、T2L\[charakorn2025texttolorainstanttransformeradaption\]、ORAL\[khan2025oralpromptinglargescaleloras\]、COND P-DIFF\[jin2024conditionalloraparametergeneration\]。DnD通过一个提示条件化的超卷积解码器,从无标签提示中生成任务特定参数,无需每任务训练;而T2L使用超网络和任务描述实现同样的功能。ORAL利用架构和文本条件化,实现灵活可扩展的LoRA参数适应。RPG引入了一种递归扩散架构,用于可扩展的无条件LoRA参数生成。COND P-DIFF应用条件潜在扩散,用于可控的LoRA参数合成,具有强大的跨域泛化能力。一个相关的方向是**模型合并**,它通过多任务学习促进对未见任务的泛化\[shao2025icmfusionincontextmetaoptimizedlora, shao2025incontextmetalorageneration\]。尽管这些工作效果显著,但其局限性在于生成的参数是静态的,一旦生成就不会进一步修改,而这个特性对于需要隐式元知识的领域至关重要。

## 4 方法论

在本节中,我们描述所提出方法的框架(见图1 (https://arxiv.org/html/2605.20189#S4.F1))¹¹¹\[zhang2025toward\]也为权重级自我改进智能体的发展提供了动机,但仅给出了概念框架的描述,没有实现或实证验证。。SOLAR首先将LLM自身的权重视为可探索的环境变量,在此基础上系统性地提出科学假设,以适当修改内部表征空间,从而使LLM适应未见过的任务。因此,设计的一个主要挑战是LLM权重空间本身的高维性和非凸性,这使得初始化和后续探索过程极其复杂。为了克服这一点,我们仅处理低秩参数\[hulora\],这些参数仅占原始模型权重的很小一部分(约1%)。此外,为了避免选择单一初始点(可能并非最佳摆动点)带来的局限,我们倾向于从合理的权重分布空间中采样。这一步骤对于消除非收敛风险至关重要。为了获得权重的初始分布,即自权重采样,我们参考了大规模LLM参数生成的先前工作,并使用基于卷积的解码器架构作为SOLAR探索点初始化器的骨干。

一旦权重初始化完毕²²²这些权重可以选择性地编码为与网络性能相关的结构化表示,如世界模型JEPA\[lecun2022path\]。,用于探索,SOLAR随后使用一个基于基础模型的智能体——目前仅是一个经过强化学习训练的LLM。

相似文章

PopuLoRA: 用于推理自我博弈的LLM种群协同进化

arXiv cs.AI

PopuLoRA 提出了一种基于种群的非对称自我博弈框架,用于 LLM 的 RLVR 后训练。在该框架中,教师和学生 LoRA 适配器协同进化,生成日益复杂的问题,从而克服了单智能体自我博弈的自我校准限制。

工具增强代理:闭环优化、仿真与建模编排

arXiv cs.AI

本文介绍了COSMO-Agent,一个工具增强的强化学习框架,用于训练LLM执行闭环CAD-CAE优化,迭代生成参数化几何体并运行仿真直到满足约束条件,并包含一个多约束奖励和新的行业对齐数据集。