OpenSkill:LLM智能体的开放世界自进化
摘要
OpenSkill是一个框架,让LLM智能体能够从开放世界资源中自进化技能和验证信号,无需目标任务监督,在多个基准测试中实现高性能。
查看缓存全文
缓存时间: 2026/06/08 03:30
论文页面 - OpenSkill: 面向LLM智能体的开放世界自我进化
来源: https://huggingface.co/papers/2606.06741
摘要
OpenSkill使得自我进化智能体能够从零开始,利用开放世界资源开发技能和验证信号,且无需目标任务监督,在多个基准测试中实现了高自动化性能。
自我进化智能体(https://huggingface.co/papers?q=Self-evolving%20agents)需要在部署后进行适应,但现有方法假设存在可用的学习循环,例如精心策划的技能、成功的轨迹或验证信号。真实的开放世界部署(https://huggingface.co/papers?q=open-world%20deployment)可能不提供这些,仅给出任务提示。在这项工作中,我们研究开放世界自我进化,即智能体必须从零开始构建自身的技能和验证信号(https://huggingface.co/papers?q=verification%20signals),利用开放世界资源但没有任何目标任务监督。我们提出了OpenSkill框架,该框架自举了这一循环:它从文档、代码仓库和网络中获取接地知识(https://huggingface.co/papers?q=grounded%20knowledge)和验证锚点,将其综合成可迁移技能(https://huggingface.co/papers?q=transferable%20skills),并基于自建虚拟任务(https://huggingface.co/papers?q=self-built%20virtual%20tasks)对这些技能进行精炼,这些任务以锚点为依据,而非目标答案。因此,开放世界既提供了待学习的知识,也提供了无监督的实践环境,目标任务监督仅保留用于最终评估。在三个基准测试和两个目标智能体上,OpenSkill在满足无监督约束的同时,取得了最佳的自动化通过率(https://huggingface.co/papers?q=automated%20pass%20rate)。分析表明,其技能可在不同模型间迁移,无需针对特定模型进行调整;其自建验证器与真实结果保持一致,尽管从未访问过真实结果。
查看arXiv页面(https://arxiv.org/abs/2606.06741) | 查看PDF(https://arxiv.org/pdf/2606.06741) | 项目页面(https://github.com/OpenLAIR/OpenSkill) | 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.06741)
在您的智能体中获取此论文:
hf papers read 2606.06741
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
请在模型README.md中引用arxiv.org/abs/2606.06741,以便在此页面显示链接。
引用此论文的数据集 0
没有数据集链接此论文
请在数据集README.md中引用arxiv.org/abs/2606.06741,以便在此页面显示链接。
引用此论文的Space 0
没有Space链接此论文
请在Space README.md中引用arxiv.org/abs/2606.06741,以便在此页面显示链接。
包含此论文的收藏集 0
没有收藏集包含此论文
请将此论文添加至一个收藏集(https://huggingface.co/new-collection)以便在此页面显示链接。
相似文章
OpenSkillEval:自动审计面向LLM智能体的开放技能生态系统
OpenSkillEval是一个自动评估框架,用于审计LLM智能体在多个下游任务中使用的开源技能。通过使用超过600个动态生成的任务和30项技能,作者发现技能的可用性并不保证有效使用,其收益在很大程度上取决于模型和框架。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
SkillOpt:自我进化智能体技能的执行策略
SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
SkillOS:面向自进化智能体的技能策展学习
本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。