OpenSkill:LLM智能体的开放世界自进化

Hugging Face Daily Papers 论文

摘要

OpenSkill是一个框架,让LLM智能体能够从开放世界资源中自进化技能和验证信号,无需目标任务监督,在多个基准测试中实现高性能。

自进化智能体需要在部署后进行适应,但现有方法假设存在可用的学习循环,例如精心策划的技能、成功轨迹或验证器信号。真实的开放世界部署可能不提供任何这些,只提供一个任务提示。在这项工作中,我们研究开放世界自进化,即智能体必须从零开始构建其技能和自身的验证信号,利用开放世界资源但没有目标任务监督。我们提出OpenSkill,一个启动这个循环的框架:它从文档、代码库和网络中获取基础知识和验证锚点,将它们综合为可迁移的技能,并根据基于锚点而非目标答案自建的虚拟任务来优化这些技能。因此,开放世界同时提供了要学习的知识和一个独立于监督的实践环境,目标任务监督保留用于最终评估。在三个基准测试和两个目标智能体上,OpenSkill在满足无监督约束的同时达到了最佳自动通过率。分析表明,其技能无需针对模型特定适配即可跨模型迁移,其自建的验证器与真实结果一致,尽管从未访问过它们。
查看原文
查看缓存全文

缓存时间: 2026/06/08 03:30

论文页面 - OpenSkill: 面向LLM智能体的开放世界自我进化

来源: https://huggingface.co/papers/2606.06741

摘要

OpenSkill使得自我进化智能体能够从零开始,利用开放世界资源开发技能和验证信号,且无需目标任务监督,在多个基准测试中实现了高自动化性能。

自我进化智能体(https://huggingface.co/papers?q=Self-evolving%20agents)需要在部署后进行适应,但现有方法假设存在可用的学习循环,例如精心策划的技能、成功的轨迹或验证信号。真实的开放世界部署(https://huggingface.co/papers?q=open-world%20deployment)可能不提供这些,仅给出任务提示。在这项工作中,我们研究开放世界自我进化,即智能体必须从零开始构建自身的技能和验证信号(https://huggingface.co/papers?q=verification%20signals),利用开放世界资源但没有任何目标任务监督。我们提出了OpenSkill框架,该框架自举了这一循环:它从文档、代码仓库和网络中获取接地知识(https://huggingface.co/papers?q=grounded%20knowledge)和验证锚点,将其综合成可迁移技能(https://huggingface.co/papers?q=transferable%20skills),并基于自建虚拟任务(https://huggingface.co/papers?q=self-built%20virtual%20tasks)对这些技能进行精炼,这些任务以锚点为依据,而非目标答案。因此,开放世界既提供了待学习的知识,也提供了无监督的实践环境,目标任务监督仅保留用于最终评估。在三个基准测试和两个目标智能体上,OpenSkill在满足无监督约束的同时,取得了最佳的自动化通过率(https://huggingface.co/papers?q=automated%20pass%20rate)。分析表明,其技能可在不同模型间迁移,无需针对特定模型进行调整;其自建验证器与真实结果保持一致,尽管从未访问过真实结果。

查看arXiv页面(https://arxiv.org/abs/2606.06741) | 查看PDF(https://arxiv.org/pdf/2606.06741) | 项目页面(https://github.com/OpenLAIR/OpenSkill) | 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.06741)

在您的智能体中获取此论文:

hf papers read 2606.06741

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

请在模型README.md中引用arxiv.org/abs/2606.06741,以便在此页面显示链接。

引用此论文的数据集 0

没有数据集链接此论文

请在数据集README.md中引用arxiv.org/abs/2606.06741,以便在此页面显示链接。

引用此论文的Space 0

没有Space链接此论文

请在Space README.md中引用arxiv.org/abs/2606.06741,以便在此页面显示链接。

包含此论文的收藏集 0

没有收藏集包含此论文

请将此论文添加至一个收藏集(https://huggingface.co/new-collection)以便在此页面显示链接。

相似文章

OpenSkillEval:自动审计面向LLM智能体的开放技能生态系统

arXiv cs.CL

OpenSkillEval是一个自动评估框架,用于审计LLM智能体在多个下游任务中使用的开源技能。通过使用超过600个动态生成的任务和30项技能,作者发现技能的可用性并不保证有效使用,其收益在很大程度上取决于模型和框架。

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

Hugging Face Daily Papers

# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,

SkillOpt:自我进化智能体技能的执行策略

Hugging Face Daily Papers

SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。