SkillFlow:自主智能体终身技能发现与演化基准测试
摘要
SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - SkillFlow:自主智能体终身技能发现与演化的基准测试
来源:https://huggingface.co/papers/2604.17308 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
SkillFlow 提供了一个基准测试,用于评估自主智能体通过结构化的终身学习协议,随着时间推移发现、修复和维护技能的能力。
随着自主智能体(https://huggingface.co/papers?q=autonomous%20agents)的能力边界不断拓展,它们越来越能够通过即插即用的外部技能(https://huggingface.co/papers?q=plug-and-play%20external%20skills)来完成专业化任务。然而,当前的基准测试大多只检验模型能否使用给定的技能,却尚未验证它们是否能从经验中发现技能、在失败后修复技能,并随着时间推移维护一个连贯的技能库。我们提出了 SkillFlow,一个包含 20 个任务族、共 166 个任务的基准测试。每个任务族内的任务构建遵循领域无关执行流(https://huggingface.co/papers?q=Domain-Agnostic%20Execution%20Flow)(DAEF),该框架定义了一种智能体工作流框架,使这些任务能够共享一致的工作流程。智能体在智能体终身学习(https://huggingface.co/papers?q=Agentic%20Lifelong%20Learning)协议下接受评估:它们从零技能开始,在每个任务族内按顺序解决任务,通过基于轨迹和评分标准的技能补丁将经验外化,并持续携带更新后的技能库向前推进。实验揭示了显著的能力差距。对于 Claude Opus 4.6,终身技能演化将任务成功率从 62.65% 提升至 71.08%(+8.43 个百分点)。然而,高技能使用率并不一定意味着高实用性:Kimi K2.5 尽管技能使用率高达 66.87%,却只提升了 +0.60 个百分点;而 Qwen-Coder-Next 的任务完成率仅为 44.58%,相较于原始设置(vanilla setting)甚至出现了倒退。SkillFlow 为该方向提供了一个结构化的测试平台,并对技能发现(https://huggingface.co/papers?q=skill%20discovery)、补丁修复、迁移及其在终身评估下的失效模式进行了深入的实证分析。
查看 arXiv 页面 (https://arxiv.org/abs/2604.17308) 查看 PDF (https://arxiv.org/pdf/2604.17308) 项目页面 (https://zhangzi-a.github.io/SkillFlow-project-page/) GitHub3 (https://github.com/ZhangZi-a/SkillFlow) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.17308)
在您的智能体中获取这篇论文:
hf papers read 2604\.17308
还没有安装最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无模型引用此论文
在模型 README.md 中引用 arxiv.org/abs/2604.17308,即可从此页面建立链接。
引用此论文的数据集 0
暂无数据集引用此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.17308,即可从此页面建立链接。
引用此论文的 Space 0
暂无 Space 引用此论文
在 Space README.md 中引用 arxiv.org/abs/2604.17308,即可从此页面建立链接。
收录此论文的合集 0
暂无合集收录此论文
将此论文添加到合集(https://huggingface.co/new-collection)以从此页面建立链接。
相似文章
SkillFlow:流程驱动的递归技能演化用于智能体编排
SkillFlow 提出了一种基于流程驱动的递归技能演化框架,用于基于大语言模型的智能体编排,采用 Tempered Trajectory Balance 来防止策略崩溃并提供透明的信用分配。在 14 个数据集上的实验表明,在问答、数学、代码和决策制定任务中,该框架显著优于基线方法。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
SkillEvolBench:从情景经验到程序技能的进化基准测试
SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。
SkillOpt:自我进化智能体技能的执行策略
SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。
智能体技能评估与演进:框架与基准
本综述系统性地审视了智能体系统的技能演进与评估,将演进归类为四种范式,并分析了六个以技能为中心的基准类别,以识别结构性差距和开放方向。