SkillOS：面向自进化智能体的技能策展学习

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

本文介绍了 SkillOS，这是一种强化学习框架，使大型语言模型智能体能够学习用于自进化的长期技能策展策略，从而提升任务性能与泛化能力。

基于大语言模型（LLM）的智能体正被越来越多地部署以处理流式任务，然而它们往往仍是一次性的问题解决者，无法从过往交互中学习。从经验中提炼的可复用技能为自进化提供了天然的底层支持，其中高质量的技能策展是关键瓶颈。现有方法要么依赖人工进行技能策展，要么预设启发式技能操作，要么仅针对短期视野的技能操作进行训练。然而，这些方法在从间接且延迟的反馈中学习复杂的长期策展策略方面仍然面临挑战。为应对这一挑战，我们提出了 SkillOS，这是一种以经验为驱动的强化学习训练方案，用于学习自进化智能体中的技能策展。SkillOS 将一个冻结的智能体执行器与一个可训练的技能策展模块配对：执行器负责检索并应用技能，而策展模块则根据累积的经验更新外部的 SkillRepo。为了提供策展的学习信号，我们设计了复合奖励机制，并基于技能相关的任务依赖关系对分组的任务流进行训练——早期的轨迹用于更新 SkillRepo，而后续相关的任务则用于评估这些更新。在多轮智能体任务和单轮推理任务中，SkillOS 在有效性和效率方面均一致优于无内存基线及强内存基线，且所学得的技能策展模块能够跨不同的执行器骨干网络和任务领域进行泛化。进一步的分析表明，所学得的策展模块能够实现更具针对性的技能使用，而 SkillRepo 中的技能也随时间演变为结构更丰富的 Markdown 文件，编码了更高层次的元技能。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:26

论文页面 - SkillOS: 为自演化代理学习技能策展

来源：https://huggingface.co/papers/2605.06614 作者：

，

摘要

SkillOS 使自演化大语言模型（LLM）代理能够通过强化学习学习复杂的长期技能策展策略，从而在多样化任务中提升性能，并泛化到不同的执行器架构。

基于 LLM 的代理（https://huggingface.co/papers?q=LLM-based%20agents）越来越多地被部署来处理流式任务，但它们往往仍然是一次性的问题求解器，无法从过去的交互中学习。从经验中提炼的可复用技能为自演化提供了自然的底层基础，其中高质量的技能策展（https://huggingface.co/papers?q=skill%20curation）是关键瓶颈。现有方法要么依赖人工技能策展（https://huggingface.co/papers?q=skill%20curation），要么规定启发式技能操作，或者仅针对短期技能操作进行训练。然而，它们仍难以从间接和延迟的反馈中学习复杂的长期策展策略。为解决这一挑战，我们提出了 SkillOS，这是一种经验驱动的强化学习训练方案，用于在自演化代理（https://huggingface.co/papers?q=self-evolving%20agents）中学习技能策展（https://huggingface.co/papers?q=skill%20curation）。SkillOS 将一个冻结的代理执行器（https://huggingface.co/papers?q=agent%20executor）（检索并应用技能）与一个可训练的技能策展者配对，后者根据积累的经验更新外部的 SkillRepo。为了提供策展的学习信号，我们设计了复合奖励（https://huggingface.co/papers?q=composite%20rewards），并基于与技能相关的任务依赖关系在分组任务流（https://huggingface.co/papers?q=task%20streams）上进行训练，其中较早的轨迹更新 SkillRepo，而后续的相关任务则评估这些更新。在多轮代理任务和单轮推理任务中，SkillOS 在有效性和效率方面始终优于无记忆和强记忆基线方法，且学到的技能策展者能够泛化到不同的执行器骨干网络和任务领域。进一步的分析表明，学到的策展者能够产生更具针对性的技能使用，而 SkillRepo 中的技能随着时间推移演变为结构更丰富的 Markdown 文件，编码了更高层次的元技能（https://huggingface.co/papers?q=meta-skills）。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06614)查看 PDF (https://arxiv.org/pdf/2605.06614)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06614)

在你的代理中获取此论文：

hf papers read 2605\.06614

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06614 即可从此页面建立链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06614 即可从此页面建立链接。

引用此论文的应用空间0

没有链接此论文的应用空间

在应用空间 README.md 中引用 arxiv.org/abs/2605.06614 即可从此页面建立链接。

SkillOS：面向自进化智能体的技能策展学习

论文页面 - SkillOS: 为自演化代理学习技能策展

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的应用空间0

包含此论文的收藏集1

相似文章

Google's SkillOS：面向自进化 AI 智能体（阅读需22分钟）

OpenSkill：LLM智能体的开放世界自进化

Skill1：通过强化学习实现技能增强型智能体的统一进化

SkillMaster：迈向大语言模型智能体的自主技能掌握

SkillFlow：自主智能体终身技能发现与演化基准测试

提交意见反馈