SkillOS:面向自进化智能体的技能策展学习

Hugging Face Daily Papers 论文

摘要

本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。

基于大语言模型(LLM)的智能体正被越来越多地部署以处理流式任务,然而它们往往仍是一次性的问题解决者,无法从过往交互中学习。从经验中提炼的可复用技能为自进化提供了天然的底层支持,其中高质量的技能策展是关键瓶颈。现有方法要么依赖人工进行技能策展,要么预设启发式技能操作,要么仅针对短期视野的技能操作进行训练。然而,这些方法在从间接且延迟的反馈中学习复杂的长期策展策略方面仍然面临挑战。为应对这一挑战,我们提出了 SkillOS,这是一种以经验为驱动的强化学习训练方案,用于学习自进化智能体中的技能策展。SkillOS 将一个冻结的智能体执行器与一个可训练的技能策展模块配对:执行器负责检索并应用技能,而策展模块则根据累积的经验更新外部的 SkillRepo。为了提供策展的学习信号,我们设计了复合奖励机制,并基于技能相关的任务依赖关系对分组的任务流进行训练——早期的轨迹用于更新 SkillRepo,而后续相关的任务则用于评估这些更新。在多轮智能体任务和单轮推理任务中,SkillOS 在有效性和效率方面均一致优于无内存基线及强内存基线,且所学得的技能策展模块能够跨不同的执行器骨干网络和任务领域进行泛化。进一步的分析表明,所学得的策展模块能够实现更具针对性的技能使用,而 SkillRepo 中的技能也随时间演变为结构更丰富的 Markdown 文件,编码了更高层次的元技能。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:26

论文页面 - SkillOS: 为自演化代理学习技能策展

来源:https://huggingface.co/papers/2605.06614 作者:

摘要

SkillOS 使自演化大语言模型(LLM)代理能够通过强化学习学习复杂的长期技能策展策略,从而在多样化任务中提升性能,并泛化到不同的执行器架构。

基于 LLM 的代理(https://huggingface.co/papers?q=LLM-based%20agents)越来越多地被部署来处理流式任务,但它们往往仍然是一次性的问题求解器,无法从过去的交互中学习。从经验中提炼的可复用技能为自演化提供了自然的底层基础,其中高质量的技能策展(https://huggingface.co/papers?q=skill%20curation)是关键瓶颈。现有方法要么依赖人工技能策展(https://huggingface.co/papers?q=skill%20curation),要么规定启发式技能操作,或者仅针对短期技能操作进行训练。然而,它们仍难以从间接和延迟的反馈中学习复杂的长期策展策略。为解决这一挑战,我们提出了 SkillOS,这是一种经验驱动的强化学习训练方案,用于在自演化代理(https://huggingface.co/papers?q=self-evolving%20agents)中学习技能策展(https://huggingface.co/papers?q=skill%20curation)。SkillOS 将一个冻结的代理执行器(https://huggingface.co/papers?q=agent%20executor)(检索并应用技能)与一个可训练的技能策展者配对,后者根据积累的经验更新外部的 SkillRepo。为了提供策展的学习信号,我们设计了复合奖励(https://huggingface.co/papers?q=composite%20rewards),并基于与技能相关的任务依赖关系在分组任务流(https://huggingface.co/papers?q=task%20streams)上进行训练,其中较早的轨迹更新 SkillRepo,而后续的相关任务则评估这些更新。在多轮代理任务和单轮推理任务中,SkillOS 在有效性和效率方面始终优于无记忆和强记忆基线方法,且学到的技能策展者能够泛化到不同的执行器骨干网络和任务领域。进一步的分析表明,学到的策展者能够产生更具针对性的技能使用,而 SkillRepo 中的技能随着时间推移演变为结构更丰富的 Markdown 文件,编码了更高层次的元技能(https://huggingface.co/papers?q=meta-skills)。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06614)查看 PDF (https://arxiv.org/pdf/2605.06614)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06614)

在你的代理中获取此论文:

hf papers read 2605\.06614

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06614 即可从此页面建立链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06614 即可从此页面建立链接。

引用此论文的应用空间0

没有链接此论文的应用空间

在应用空间 README.md 中引用 arxiv.org/abs/2605.06614 即可从此页面建立链接。

包含此论文的收藏集1

相似文章

OpenSkill:LLM智能体的开放世界自进化

Hugging Face Daily Papers

OpenSkill是一个框架,让LLM智能体能够从开放世界资源中自进化技能和验证信号,无需目标任务监督,在多个基准测试中实现高性能。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。