Workflow-to-Skill: 通过路由-工作流-语义-附件分解创建技能
摘要
本文提出了W2S框架,该框架利用Skill-IR中间表示从历史交互轨迹中自动为LLM智能体构建可执行技能,相比基线方法,行为重放一致性提升了10.5%。
arXiv:2606.06893v1 Announce Type: new
摘要:大型语言模型智能体越来越依赖技能来编码程序知识,但高质量技能的手动编写成本仍然很高。本文研究从异构交互证据(包括演示、智能体轨迹、工具踪迹和执行日志)中自动构建技能。我们认为,从轨迹到技能的构建并非简单的摘要任务,因为轨迹是碎片化、冗余的,且可能缺失稀有但安全关键的行为。为此,我们引入RWSA,一种面向工作流的中间表示,将技能分解为工作流结构、执行语义和运行时附件,涵盖任务分解、控制流、验证、安全、回滚和状态管理。基于RWSA,我们提出W2S框架,该框架分割轨迹、归纳局部技能草稿、对齐共享结构、协调分支并压缩冗余,同时保留证据和置信度注释。在70项技能上的实验表明,W2S相比基于摘要和提示的基线,行为重放一致性提高了10.5%,凸显了将轨迹视为可执行运行时规范而非可压缩文本的必要性。
查看缓存全文
缓存时间: 2026/06/08 09:14
# 从工作流到技能:通过路由-工作流-语义-附件分解创建技能 来源:https://arxiv.org/html/2606.06893 张宇阳¹ 韩欣源² 蒋旭东¹ 王润¹ ¹ 武汉大学空天信息安全与可信计算教育部重点实验室,网络空间安全学院 ² 南昌大学 ###### 摘要 大语言模型代理越来越依赖*技能*来编码程序性知识,包括何时调用能力、如何分解任务、遵循哪些约束以及如何验证中间结果。尽管它们很重要,但高质量技能仍然很大程度上是手工编写的,这使得它们难以跨领域、工具和执行环境进行扩展。本文研究如何从异构的交互证据(例如演示、代理轨迹、工具使用痕迹和执行日志)中自动构建可执行的技能。我们认为这不是一个标准的摘要问题:历史轨迹通常跨场景碎片化,包含冗余或偶然步骤,并且可能遗漏低频率但安全关键的操作。为了解决这一挑战,我们引入了 Skill-IR,这是一种中间表示,它从工作流角度解释技能,并将其内容分解为三个互补的组件:工作流结构、执行语义和运行时附件。这些 WSA 组件共同捕获了可执行技能所需的结构、行为和操作元素,包括任务分解、步骤级执行要求、控制流条件、验证程序和安全关键的状态管理。基于 Skill-IR,我们提出了 W2S,一种将历史执行证据转换为可重用代理技能的轨迹到技能的构建框架。W2S 将轨迹分割成程序单元,从各个路径中归纳出局部技能草稿,跨场景对齐和合并共享结构,协调条件分支,并压缩冗余步骤,同时保留验证、审批、回滚和状态管理行为,并附带证据和置信度注释。在 70 个技能上的实验表明,W2S 在行为回放一致性上优于基于摘要和提示的基线方法,提升了 10.5%。这些结果表明,可靠的技能生成需要将历史轨迹视为可执行运行时规范的证据,而不是需要压缩的文本。 ## 1 引言 LLM 代理(Luo 等人,2025 (https://arxiv.org/html/2606.06893#bib.bib31))正在快速从仅生成响应的系统演变为运行时系统,执行工作流(Wang 等人,2024 (https://arxiv.org/html/2606.06893#bib.bib9))、调用工具(Shi 等人,2025 (https://arxiv.org/html/2606.06893#bib.bib20))以及读写状态(Xie 等人,2024 (https://arxiv.org/html/2606.06893#bib.bib36))。随着代理承担这些运行时职责,需要一种抽象来封装可重用的代理能力,并指定它们应如何跨任务应用。在这一转变中,技能已成为组织此类可重用能力的关键抽象(Ling 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib13))。技能指定了代理可以复用哪些能力,同时附带有明确的指令,说明何时激活以及如何使用(Li 等人,2026a (https://arxiv.org/html/2606.06893#bib.bib14))。从这个意义上说,技能不仅仅是提示片段;它是一个运行时规范,旨在指导代理在未来的任务中的行为(Xu 和 Yan,2026 (https://arxiv.org/html/2606.06893#bib.bib37))。近期的实践表明,技能可以提高代理行为的可靠性、可迁移性和可维护性,并且提示和工具使用程序正越来越多地被重新组织或重新实现为技能(Jiang 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib19);Ling 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib13))。由于技能可以为积累、转移和操作化代理经验提供可扩展的接口,它们很可能在未来代理系统中保持重要地位,并已引起工业界和学术界的日益关注(Zhou 等人,2026b (https://arxiv.org/html/2606.06893#bib.bib17))。 然而,尽管技能展示了其价值,但目前的技能大多是手动撰写的,这使得它们难以扩展,也难以与不断变化的使用场景、工具环境和执行要求保持一致(Liu 等人,2026b (https://arxiv.org/html/2606.06893#bib.bib15);Ma 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib16))。幸运的是,以交互轨迹、工具调用、专家演示、用户反馈和执行日志等形式存在的任务导向行为的丰富证据,为自动化技能归纳提供了自然基础(Huang 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib5))。然而,当前的技能生成方法通常局限于总结轨迹,而不是产生未来代理可以可靠复用的结构化运行时规范(Li 等人,2026c (https://arxiv.org/html/2606.06893#bib.bib10);Yang 等人,2026a (https://arxiv.org/html/2606.06893#bib.bib12))。结果,归纳出的技能可能过度拟合偶然细节,遗漏关键前提或恢复过程,并且难以验证或维护。因此,需要一种更原则性的表述:技能归纳应将执行数据转换为结构化的、可重用的程序性知识,以指导未来的代理行为。 技能创建在其目标上不同于普通的摘要生成。摘要通常根据语义显著性压缩历史内容(Tang 等人,2023 (https://arxiv.org/html/2606.06893#bib.bib38)),而技能创建旨在重建能够支持未来执行的程序性知识(Wu 和 Zhang,2026 (https://arxiv.org/html/2606.06893#bib.bib18))。要使归纳出的技能可重用,它不仅必须保留先前轨迹的主要意图,还必须保留决定代理如何行动的运行时结构:触发条件、任务分解(Yao 等人,2022 (https://arxiv.org/html/2606.06893#bib.bib32))、工具使用策略、约束、失败处理和验证标准(Shinn 等人,2023 (https://arxiv.org/html/2606.06893#bib.bib39))。这些元素通常在功能上是不同的,而不是层次上重要的,因此纯摘要导向的过程可能会合并或忽略它们。因此,技能创建需要将轨迹转换为紧凑但结构化的工作流,而不仅仅是产生一个简明的“发生了什么”的描述(Zhou 等人,2026a (https://arxiv.org/html/2606.06893#bib.bib11))。 我们的关键见解是,技能归纳的合适单元不应是文本指令,而应是结构化的运行时规范,特别是在自动化技能生成中。与将源数据压缩为显著语义内容的普通文本摘要不同(Radford 等人,2021 (https://arxiv.org/html/2606.06893#bib.bib23)),技能创建必须保留使技能可执行和可重用的操作属性。生成的技能不应仅仅描述源数据是关于什么的;它应指定技能何时适用、任务如何进行、局部决策如何做出以及哪些运行时保障约束执行。 为此,我们引入了 Skill-IR,这是一种中间表示,它在将交互轨迹转换为可计算的表示后,再将其渲染为可执行的代理指令。Skill-IR 用一个路由头部和三个运行时组件来表示一个技能。*路由头部*,包括用于技能发现的前置内容和描述,指定了技能何时应考虑适用。如图1 (https://arxiv.org/html/2606.06893#S2.F1) 所示,*工作流主干*捕获执行的控制结构,包括工作流节点和它们之间的有向转移(当技能至少有两个通过有向边连接的节点时)。*节点级语义*定义了局部目标和决策标准,这些标准管理着工作流路径中记录的分支、重试和终止行为。*运行时附件*描述了执行所需的操作上下文,例如工具、脚本、资源、参考、模板、配置约束和输出要求。与路由头部一起,这种分解将技能何时适用、如何执行、如何做出决策以及运行时效果如何受约束分开。 基于这一见解,我们提出了 W2S,一个证据驱动的技能构建框架。W2S 将轨迹对齐到场景,提取路径级观察,并为每条路径生成基于证据的技能草稿。然后,它融合共享的工作流节点,协调分支和冲突,并在保留关键信息的同时压缩冗余。起草的中间表示最终被渲染为可重用的代理技能。 在多场景代理轨迹上的实验表明,与基于摘要和提示的基线相比,W2S 提高了基于回放的行为保真度。这些结果表明,历史轨迹应被视为用于归纳运行时规范的执行证据,而不是需要压缩的文档。更广泛地说,它们表明,从经验中进行可靠的代理学习受益于明确的中间表示、路径级证据跟踪和运行时感知的结构。 我们的贡献有三方面: - •我们识别出自动化代理技能生成是一个结构化的归纳任务,而不是过去数据的轨迹摘要。为支持这一表述,我们引入了 Skill-IR,它通过路由头部、工作流主干、节点级语义和运行时附件来表示技能。 - •我们提出了 W2S,一个证据驱动的框架,通过对齐场景、合并兼容模式并保留执行关键约束,从路径级执行轨迹构建 Skill-IR。 - •实验表明,在相同的交互证据下,W2S 在 WSASkill 数据集上始终优于 Anthropic Skill Creator,无论是在结构保真度还是行为一致性方面。 ## 2 相关研究 ### 2.1 代理技能 基于 LLM 的代理正越来越多地从整体式提示转向模块化程序抽象(Shi 等人,2025 (https://arxiv.org/html/2606.06893#bib.bib20);Ruan 等人,2023 (https://arxiv.org/html/2606.06893#bib.bib21))。*代理技能*旨在跨相关任务和会话持久化,是一个可重用的操作包,指定了何时激活、代理应如何进行以及在执行期间应使用哪些任务特定的资源、脚本、工具或约束(Ling 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib13))。与低级工具或 API 不同,它不一定扩展原始动作空间;相反,它将现有指令、动作和资源组织成可重复的过程。从这个意义上说,技能在高级任务条件和具体环境交互之间充当程序层:记忆存储事实或偏好,工具暴露原始能力,而技能描述如何为重复任务组合这些能力(Jiang 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib19);Zhou 等人,2026b (https://arxiv.org/html/2606.06893#bib.bib17))。 最近的代理运行时和技能格式使得这种抽象更为明确。技能通常打包了用于发现的元数据、用于执行的自然语言指令以及可选的辅助文件,如脚本、参考、模板或示例(Nous Research,2026 (https://arxiv.org/html/2606.06893#bib.bib30))。这种设计也采用了渐进式披露:代理首先检查轻量级描述以决定技能是否相关,仅在需要时才加载完整的程序内容。这使得技能对于长时程代理系统具有吸引力,因为在这些系统中,可重用过程必须被选择性调用,而无需用所有可用经验淹没上下文。因此,技能正成为 LLM 代理的一种核心*程序性记忆*形式:它们是可编辑、可版本化、可跨兼容运行时移植的,并且可以作为显式工件而非潜在模型行为进行审计(Jiang 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib19);Wu 和 Zhang,2026 (https://arxiv.org/html/2606.06893#bib.bib18))。 ### 2.2 轨迹驱动的技能归纳 越来越多的研究探索如何从代理经验中自动获取此类技能(Wang 等人,2024 (https://arxiv.org/html/2606.06893#bib.bib9);Xia 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib2);Wang 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib8);Huang 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib5))。我们将这一方向称为*轨迹驱动的技能归纳*:将历史交互或执行轨迹转换为可重用的技能制品的过程。轨迹可能包含用户请求、观察、中间推理、工具调用、环境动作、执行结果、纠正以及重复的失败或成功模式(Ni 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib4))。关键思想是将这些轨迹视为行为证据,而不是待检索或总结的被动日志,从中可以重构未来的操作程序(Li 等人,2026b (https://arxiv.org/html/2606.06893#bib.bib3))。 现有方法以不同形式实现了这一思想。Agent Workflow Memory 从过去的网络代理轨迹中归纳可重用工作流,并检索它们以指导未来动作生成(Wang 等人,2024 (https://arxiv.org/html/2606.06893#bib.bib9))。Agent Skill Induction 进一步将归纳的技能表示为可执行程序,使系统能够通过执行而不是仅靠自由形式的文本教训来验证技能正确性(Wang 等人,2025 (https://arxiv.org/html/2606.06893#bib.bib28))。AutoSkill 将重复的用户需求和交互模式抽象为显式、可维护的技能,这些技能可以在会话间更新和注入(Yang 等人,2026b (https://arxiv.org/html/2606.06893#bib.bib29))。SkillRL 将原始轨迹蒸馏为分层技能库,并让技能库在强化学习过程中与代理策略共同进化(Xia 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib2))。Trace2Skill 并行分析多次执行,提取轨迹局部的教训,并将它们整合为可迁移的技能目录,既可以深化现有手写技能,也可以从头创建新技能(Ni 等人,2024 (https://arxiv.org/html/2606.06893#bib.bib4))。这些研究共同表明,经验可以被压缩为持久的程序性工件,从而提高代理的成功率、效率、迁移能力和长期适应性,而无需重新训练底层模型。 然而,这一研究方向也暴露出一个基本的表示挑战(Liu 等人,2026a (https://arxiv.org/html/2606.06893#bib.bib6))。技能的有用性不仅取决于它是否保留了显著的任务内容,还取决于它是否保留了使行为可执行的运行时结构(Liang 等人,2026 (https://arxiv.org/html/2606.06893#bib.bib7))。如果轨迹被压缩为自由形式的摘要或松散组织的教训,那么生成的技能可能会丢失操作细节,例如激活条件、工作流阶段、分支标准、重试和回退规则、工具使用要求以及验证步骤。
相似文章
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
SkillFlow:流程驱动的递归技能演化用于智能体编排
SkillFlow 提出了一种基于流程驱动的递归技能演化框架,用于基于大语言模型的智能体编排,采用 Tempered Trajectory Balance 来防止策略崩溃并提供透明的信用分配。在 14 个数据集上的实验表明,在问答、数学、代码和决策制定任务中,该框架显著优于基线方法。
SKILL.nb: 选择性形式化与门控执行用于持久化智能体工作流
介绍了SKILL.nb,一个通过证据校准的生命周期策略来管理可复用智能体工作流的框架,具有选择性形式化和门控条件执行等特点。在网页自动化基准测试中取得了显著改进,并展示了对环境漂移的鲁棒性。
COLLEAGUE.SKILL:通过专家知识蒸馏实现自动化AI技能生成
本文介绍COLLEAGUE.SKILL,一个开源系统,能够从异构轨迹中自动提炼基于人的AI技能,形成可检查、可纠正、可移植的技能包,使LLM代理能够携带有限的人类专业知识和交互风格表征。
Formal Skill: 面向高效精准LLM智能体的可编程运行时技能
本文介绍了Formal Skill,这是一种面向LLM智能体的运行时原生抽象,它将可重用流程编码为可执行状态机,配有JSON元数据、Python执行器和钩子控制的逻辑。还介绍了一个名为FairyClaw的开源实现,在Harness-Bench上展示了具有竞争力的性能,且减少了token使用量。