SkillOS:面向自进化智能体的技能策展学习
摘要
本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。
查看缓存全文
缓存时间: 2026/05/08 07:26
论文页面 - SkillOS: 为自演化代理学习技能策展
来源:https://huggingface.co/papers/2605.06614 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
SkillOS 使自演化大语言模型(LLM)代理能够通过强化学习学习复杂的长期技能策展策略,从而在多样化任务中提升性能,并泛化到不同的执行器架构。
基于 LLM 的代理(https://huggingface.co/papers?q=LLM-based%20agents)越来越多地被部署来处理流式任务,但它们往往仍然是一次性的问题求解器,无法从过去的交互中学习。从经验中提炼的可复用技能为自演化提供了自然的底层基础,其中高质量的技能策展(https://huggingface.co/papers?q=skill%20curation)是关键瓶颈。现有方法要么依赖人工技能策展(https://huggingface.co/papers?q=skill%20curation),要么规定启发式技能操作,或者仅针对短期技能操作进行训练。然而,它们仍难以从间接和延迟的反馈中学习复杂的长期策展策略。为解决这一挑战,我们提出了 SkillOS,这是一种经验驱动的强化学习训练方案,用于在自演化代理(https://huggingface.co/papers?q=self-evolving%20agents)中学习技能策展(https://huggingface.co/papers?q=skill%20curation)。SkillOS 将一个冻结的代理执行器(https://huggingface.co/papers?q=agent%20executor)(检索并应用技能)与一个可训练的技能策展者配对,后者根据积累的经验更新外部的 SkillRepo。为了提供策展的学习信号,我们设计了复合奖励(https://huggingface.co/papers?q=composite%20rewards),并基于与技能相关的任务依赖关系在分组任务流(https://huggingface.co/papers?q=task%20streams)上进行训练,其中较早的轨迹更新 SkillRepo,而后续的相关任务则评估这些更新。在多轮代理任务和单轮推理任务中,SkillOS 在有效性和效率方面始终优于无记忆和强记忆基线方法,且学到的技能策展者能够泛化到不同的执行器骨干网络和任务领域。进一步的分析表明,学到的策展者能够产生更具针对性的技能使用,而 SkillRepo 中的技能随着时间推移演变为结构更丰富的 Markdown 文件,编码了更高层次的元技能(https://huggingface.co/papers?q=meta-skills)。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06614)查看 PDF (https://arxiv.org/pdf/2605.06614)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06614)
在你的代理中获取此论文:
hf papers read 2605\.06614
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.06614 即可从此页面建立链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.06614 即可从此页面建立链接。
引用此论文的应用空间0
没有链接此论文的应用空间
在应用空间 README.md 中引用 arxiv.org/abs/2605.06614 即可从此页面建立链接。
包含此论文的收藏集1
相似文章
Google's SkillOS:面向自进化 AI 智能体(阅读需22分钟)
Google Cloud AI Research 推出 SkillOS,这是一种强化学习框架,使基于 LLM 的智能体能够通过从过往经验中提炼可复用技能来实现自我进化。
OpenSkill:LLM智能体的开放世界自进化
OpenSkill是一个框架,让LLM智能体能够从开放世界资源中自进化技能和验证信号,无需目标任务监督,在多个基准测试中实现高性能。
Skill1:通过强化学习实现技能增强型智能体的统一进化
Skill1 是一个统一框架,通过共享的任务结果目标,训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明,该框架在复杂任务环境中优于现有的基线方法。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
SkillFlow:自主智能体终身技能发现与演化基准测试
SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。