SkillFlow：自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers 2026/04/19 00:00 论文

autonomous-agents lifelong-learning benchmark skill-discovery evaluation agentic-ai

摘要

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试，用于评估自主智能体在终身学习协议下，随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距：Claude Opus 4.6 通过技能演化获得了显著提升，而其他模型的收益有限甚至为负。

随着自主智能体能力边界的不断拓展，它们越来越能够通过即插即用的外部技能来完成专业任务。然而，现有基准测试大多仅检验模型能否使用给定技能，至于它们是否能从经验中发现技能、在失败后修复技能，并长期维护连贯的技能库，仍属未知。为此，我们提出了 SkillFlow，这是一个涵盖20个任务家族共166项任务的基准测试，其中每个家族内的任务构建均遵循领域无关执行流（DAEF），该流程定义了一种智能体工作流框架，使这些任务共享一致的工作流。智能体在一种智能体终身学习协议下接受评估：它们初始不掌握任何技能，在每个家族内按顺序解决任务，通过轨迹与评分标准驱动的技能补丁将经验教训外化，并持续携带更新后的技能库前进。实验揭示了显著的能力差距。Claude Opus 4.6 的终身技能演化将任务成功率从 62.65% 提升至 71.08%（+8.43 个百分点）。然而，高技能使用率并不必然意味着高实际效用：Kimi K2.5 尽管技能使用率高达 66.87%，但仅提升了 +0.60 个百分点；而 Qwen-Coder-Next 的任务完成率仅为 44.58%，且相较于基线设置仍出现了倒退。 SkillFlow 为该方向提供了一个结构化的测试平台，并对终身评估场景下的技能发现、补丁修复、迁移及其失效模式进行了深入的经验分析。

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - SkillFlow：自主智能体终身技能发现与演化的基准测试

来源：https://huggingface.co/papers/2604.17308 作者：

摘要

SkillFlow 提供了一个基准测试，用于评估自主智能体通过结构化的终身学习协议，随着时间推移发现、修复和维护技能的能力。

随着自主智能体（https://huggingface.co/papers?q=autonomous%20agents）的能力边界不断拓展，它们越来越能够通过即插即用的外部技能（https://huggingface.co/papers?q=plug-and-play%20external%20skills）来完成专业化任务。然而，当前的基准测试大多只检验模型能否使用给定的技能，却尚未验证它们是否能从经验中发现技能、在失败后修复技能，并随着时间推移维护一个连贯的技能库。我们提出了 SkillFlow，一个包含 20 个任务族、共 166 个任务的基准测试。每个任务族内的任务构建遵循领域无关执行流（https://huggingface.co/papers?q=Domain-Agnostic%20Execution%20Flow）（DAEF），该框架定义了一种智能体工作流框架，使这些任务能够共享一致的工作流程。智能体在智能体终身学习（https://huggingface.co/papers?q=Agentic%20Lifelong%20Learning）协议下接受评估：它们从零技能开始，在每个任务族内按顺序解决任务，通过基于轨迹和评分标准的技能补丁将经验外化，并持续携带更新后的技能库向前推进。实验揭示了显著的能力差距。对于 Claude Opus 4.6，终身技能演化将任务成功率从 62.65% 提升至 71.08%（+8.43 个百分点）。然而，高技能使用率并不一定意味着高实用性：Kimi K2.5 尽管技能使用率高达 66.87%，却只提升了 +0.60 个百分点；而 Qwen-Coder-Next 的任务完成率仅为 44.58%，相较于原始设置（vanilla setting）甚至出现了倒退。SkillFlow 为该方向提供了一个结构化的测试平台，并对技能发现（https://huggingface.co/papers?q=skill%20discovery）、补丁修复、迁移及其在终身评估下的失效模式进行了深入的实证分析。

查看 arXiv 页面 (https://arxiv.org/abs/2604.17308) 查看 PDF (https://arxiv.org/pdf/2604.17308) 项目页面 (https://zhangzi-a.github.io/SkillFlow-project-page/) GitHub3 (https://github.com/ZhangZi-a/SkillFlow) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2604.17308)

在您的智能体中获取这篇论文：

hf papers read 2604\.17308

还没有安装最新版 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2604.17308，即可从此页面建立链接。

引用此论文的数据集 0

暂无数据集引用此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17308，即可从此页面建立链接。

引用此论文的 Space 0

暂无 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2604.17308，即可从此页面建立链接。

收录此论文的合集 0

暂无合集收录此论文

将此论文添加到合集（https://huggingface.co/new-collection）以从此页面建立链接。

SkillFlow：自主智能体终身技能发现与演化基准测试

论文页面 - SkillFlow：自主智能体终身技能发现与演化的基准测试

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

收录此论文的合集 0

相似文章

SkillFlow：流程驱动的递归技能演化用于智能体编排

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

SkillEvolBench：从情景经验到程序技能的进化基准测试

SkillOpt：自我进化智能体技能的执行策略

智能体技能评估与演进：框架与基准

提交意见反馈