@omarsar0: // 自动化 SKILL.md 生成 // 越来越多的挖掘会话是提升智能体的最佳方式之一。打开…
摘要
这篇来自麻省理工学院和哈佛大学的论文探讨了通过挖掘 GUI 交互轨迹来自动化生成 SKILL.md,发现聚类结果可读性强,但未能提升跨领域的策略性能。
查看缓存全文
缓存时间: 2026/06/20 16:19
// 自动化生成SKILL.md //
越来越多的研究表明,交互会话挖掘是提升智能体性能的最佳方法之一。
OpenAI 昨天发布了一个类似的功能,让 Codex 能够从交互中提取技能包。
(收藏起来)
这篇论文介绍了一种相关方法。
他们采用了一个三阶段流水线:分割 GUI 轨迹、将分割后的片段聚类为候选技能、并训练一个感知技能的策略。
聚类结果可读性高,8个聚类中有5个与真实工作流标签的纯度达到0.95或更高。
但可读性并不能带来迁移。GRPO 仅将技能步骤准确率从18.5%提升到20.5%,对 BrowseComp+ 几乎没有影响,并且输给了简单的频率先验。
作者指出了三个问题根源:弱边界检测器、无序片段表示以及离线奖励模型。
论文链接:https://arxiv.org/abs/2606.20363
在我们的学院中学习如何构建有效的AI智能体:https://academy.dair.ai
自动化生成交互轨迹挖掘的计算机智能体SKILL.md文件
来源:https://arxiv.org/html/2606.20363
Yuexing Hao¹, Xiaomin Li²
¹麻省理工学院,²哈佛大学
[email protected]
摘要
显式技能库使计算机智能体更易于检查,但尚不清楚是否能够从交互数据中挖掘出这样的库,并以此改进下游策略。我们通过一个三阶段流水线研究这个问题:分割 GUI 轨迹,将片段聚类为候选技能,并根据得到的标注训练一个感知技能的策略。在源基准上,挖掘出的聚类是可读的:八个聚类中有五个与 InteraSkill Workflows 标签的纯度达到0.95以上。然而,可读性并不意味着迁移性。GRPO 仅在 IW 技能步骤准确率上从18.5%提升到20.5%,对 BrowseComp+ 基本没有改变,并且在关键的源域指标上不如简单的频率先验。因此,我们将该方法作为一个诊断性研究:轨迹挖掘可以暴露可检查的技能结构,但当前的边界检测器、无序片段表示和离线奖励模型不足以实现可靠的跨域策略改进。
1 引言
计算机智能体(CUAs)通过点击、输入、滚动、复制和粘贴等操作在图形化用户界面(GUIs)上执行操作[44 (https://arxiv.org/html/2606.20363#bib.bib1),7 (https://arxiv.org/html/2606.20363#bib.bib2),46 (https://arxiv.org/html/2606.20363#bib.bib27)]。随着这些智能体从单步网络任务转向更长的工作流程,重复模式变得重要。用户可能需要搜索页面、复制值、切换应用、填写表单或发送消息。智能体系统通常将这些重复的例行程序打包为技能:命名过程,位于原始用户界面(UI)动作之上和完整任务计划之下。我们使用 SKILL.md 来指代这种显式技能文件。这些文件使行为更易于检查和调试,但它们通常是手动编写的。
手工编写的技能造成了实际瓶颈。它们需要命名、界定范围、记录文档,并在界面变化时进行更新。它们还编码了设计者对哪些行为是可重复使用的假设。轨迹数据集包含了另一种可能的结构来源:如果许多用户反复执行相似的动作子序列,这些子序列可能会揭示自然的技能单元。本文提出,我们是否能从这样的轨迹中构建显式技能库?难点不仅仅在于聚类轨迹。难点在于证明发现的聚类能在新任务上帮助策略。一个聚类可以连贯但不一定有用。策略改进可能只是因为看到了更多动作数据,而不是因为学到了可迁移的技能词汇。群体相对策略优化(GRPO)也可以优化奖励模型而不提高基准准确率。因此,我们提出一个狭窄的问题:从挖掘技能中迁移了什么?
我们的流水线有三个步骤。首先,我们在动作变化较大处切割轨迹。其次,我们将得到的片段进行聚类,并通过伪标签对比学习优化聚类嵌入。第三,我们从基础模型开始使用 GRPO 训练 Qwen3-8B。奖励模型对完整的技能感知响应进行评分,但主要报告的 Phase 3 评估是技能序列组合:预测下一个挖掘技能标签,并将结果技能序列与参考序列进行比较。我们将该策略与在 IW、WebArena 和 BrowseComp+ 上使用相同技能导向格式的零样本基线进行比较。我们还额外报告了 WorkArena-NLP 作为纯文本诊断,以及 Mind2Web 零样本基线作为背景,但两者都不用于声称当前的 GRPO 迁移能力。
主要结果好坏参半。在源 IW 基准上,挖掘出的库是可读的:八个聚类中有五个与 IW 真实技能标签的纯度达到0.95以上。然而,作为下游训练信号,当前设置较弱。GRPO 将 IW 技能步骤准确率仅从18.5%提升到20.5%,而 BrowseComp+ 技能步骤准确率从43.5%变为43.3%。在 IW 上,简单的频率基线是一个更强的下一技能预测器,优于所提出的多层感知器(MLP)和 GRPO,并且在所有数据规模下,其编辑距离都低于 Auto-SKILL.md。因此,我们将结果视为当前流水线局限性的证据。轨迹挖掘可以产生可读的技能结构。但我们当前的奖励模型、无序片段表示和 GRPO 设置未能将该结构转化为强大的技能组合策略,并且几种学习变体表现不如“最常见技能”基线。
本文是一个诊断性研究,而非成功声明。我们做出三项贡献。首先,我们提出一个简单的流水线,用于从 GUI 轨迹中挖掘显式 SKILL.md 风格的例程,并展示它产生了可读的源域结构。其次,我们评估了这些挖掘技能在多个基线和迁移检查下是否改进了下游技能组合。第三,我们报告了一个负面结果:当前的学习组件未能超越简单的频率先验,并且验证的跨域增益不存在或为负。这些发现阐明了轨迹挖掘技能库中目前哪些部分有用,哪些部分仍未解决。我们的可复现代码在匿名 GitHub 仓库中提供¹¹ 匿名项目仓库:https://anonymous.4open.science/r/CUA-1680。
2 相关工作
现代 CUA 使用结构化的 UI 观察和固定的动作空间。WebShop[44 (https://arxiv.org/html/2606.20363#bib.bib1)] 和 Mind2Web[7 (https://arxiv.org/html/2606.20363#bib.bib2)] 定义了常见原语,而 WebArena[46 (https://arxiv.org/html/2606.20363#bib.bib27)]、VisualWebArena[20 (https://arxiv.org/html/2606.20363#bib.bib28)]、WorkArena[9 (https://arxiv.org/html/2606.20363#bib.bib29)] 和 OSWorld[41 (https://arxiv.org/html/2606.20363#bib.bib30)] 测试了真实的 Web 和操作系统任务。基础 CUA 系统如 OpAgent[15 (https://arxiv.org/html/2606.20363#bib.bib18)]、OpenCUA[39 (https://arxiv.org/html/2606.20363#bib.bib19)] 和 UltraCUA[43 (https://arxiv.org/html/2606.20363#bib.bib20)] 通过更大的模型和轨迹语料库推动这一方向。我们对可检查技能文件的强调也与 GUI 智能体基准之外的人本和规则化 AI 工作相关联。Hao 等人研究用于老年癌症患者共同决策的 AI 系统[18 (https://arxiv.org/html/2606.20363#bib.bib21)]、集成 EHR 的 LLM 智能体用于前列腺癌患者教育[17 (https://arxiv.org/html/2606.20363#bib.bib22)],以及医学问答中医患 AI 相关性对齐[16 (https://arxiv.org/html/2606.20363#bib.bib23)];Li 等人研究遵循指南的医学决策、基于规则的数据选择以及用于奖励建模的自适应安全规则[24 (https://arxiv.org/html/2606.20363#bib.bib24),26 (https://arxiv.org/html/2606.20363#bib.bib25),25 (https://arxiv.org/html/2606.20363#bib.bib26)]。这些系统推动了我们在本文采用的同一设计原则:自动智能体应暴露中间结构,使人类能够检查、质疑和纠正。
先前的工作已经挖掘或合成了可复用的工作流工件。Agent Workflow Memory (AWM)[40 (https://arxiv.org/html/2606.20363#bib.bib7)] 从轨迹中诱导例行程序,SkillWeaver[45 (https://arxiv.org/html/2606.20363#bib.bib8)] 将网站实践蒸馏为可复用的 API 风格技能,AutoManual[4 (https://arxiv.org/html/2606.20363#bib.bib9)] 构建环境手册,ICAL[32 (https://arxiv.org/html/2606.20363#bib.bib11)] 将演示蒸馏为认知抽象,LearnAct[27 (https://arxiv.org/html/2606.20363#bib.bib31)] 研究基于演示的移动 GUI 智能体,而开放世界技能发现使用动作预测误差进行边界检测[6 (https://arxiv.org/html/2606.20363#bib.bib32)]。更广泛的强化学习文献提供了时间抽象的形式化背景:选项和选项-批评方法[35 (https://arxiv.org/html/2606.20363#bib.bib4),2 (https://arxiv.org/html/2606.20363#bib.bib49)]、深度 HRL 系统[21 (https://arxiv.org/html/2606.20363#bib.bib37),38 (https://arxiv.org/html/2606.20363#bib.bib39),28 (https://arxiv.org/html/2606.20363#bib.bib41),31 (https://arxiv.org/html/2606.20363#bib.bib42),23 (https://arxiv.org/html/2606.20363#bib.bib44)],以及元学习或离线原语[12 (https://arxiv.org/html/2606.20363#bib.bib40),1 (https://arxiv.org/html/2606.20363#bib.bib45)]。无监督技能发现方法如 VIC、DIAYN、DADS、CIC 和可操作表示通过互信息、对比或目标条件目标学习可复用行为[14 (https://arxiv.org/html/2606.20363#bib.bib38),10 (https://arxiv.org/html/2606.20363#bib.bib3),33 (https://arxiv.org/html/2606.20363#bib.bib48),22 (https://arxiv.org/html/2606.20363#bib.bib47),13 (https://arxiv.org/html/2606.20363#bib.bib43)];最近的分析警告说,互信息技能并非对所有下游奖励都普遍最优[11 (https://arxiv.org/html/2606.20363#bib.bib46)]。我们的负面结果与这一警告一致:连贯的技能空间并不自动等于有用的跨域策略。
最近的 GUI 智能体训练工作对我们的 GRPO 设置有所启发。DigiRL[3 (https://arxiv.org/html/2606.20363#bib.bib13)] 和 WebRL[30 (https://arxiv.org/html/2606.20363#bib.bib12)] 通过在线 RL 课程优化智能体;AgentTrek[42 (https://arxiv.org/html/2606.20363#bib.bib14)] 和 OS-Genesis[34 (https://arxiv.org/html/2606.20363#bib.bib15)] 生成智能体轨迹;Proposer-Agent-Evaluator (PAE)[47 (https://arxiv.org/html/2606.20363#bib.bib16)] 使用评估者反馈进行自主技能发现;Skills-Coach[36 (https://arxiv.org/html/2606.20363#bib.bib17)] 将 GRPO 风格的循环应用于生成的任务集合。我们的实验更为狭窄:它使用离线 IW 衍生的奖励对文本技能计划进行评估,在 RL 期间不与实时 GUI 交互,并且不针对目标域任务成功训练奖励。因此,我们将弱 GRPO 迁移解释为流水线层面的结果,而不是反对 GUI 智能体 RL 的广泛证据。
3 问题设置
我们将轨迹视为 UI 观察和原始动作的序列。原始动作包括点击、输入、滚动、复制和粘贴。技能标签概括一个连续的动作片段。形式上,输入数据集为
D = {τ^(n)}_n=1^N, τ^(n) = ((o_1, a_1), …, (o_T, a_T)), (1)
其中 o_t 是 GUI 观察,a_t ∈ A_low 是原始 UI 动作。目标是诱导一个技能词汇 Z 和每个轨迹到连续区间的分割,每个区间分配一个技能 z ∈ Z。在手工编写的系统中,Z 由设计者提供。在我们的设置中,Z 是从轨迹中诱导的。
问题在于诱导的词汇 Z 是否有助于策略。因此,我们将主要评估集中在技能组合上:模型是否能在保留任务和迁移设置中选择正确的挖掘技能序列。原始 UI 动作准确率仅在经过验证的 Mind2Web 零样本诊断中报告,因为该基准的标注直接支持该指标;它不是 Phase 3 的主要声明。
4 方法:自动 SKILL.md 生成
流水线包含三个阶段。它分割轨迹,将片段聚类为技能,并使用得到的标注训练 CUA 策略。前两个阶段构建技能库。第三个阶段测试该库是否有帮助。图1 (https://arxiv.org/html/2606.20363#S4.F1) 总结了研究设计。下面的方程是操作定义,而不是独立的理论声明。方程2 (https://arxiv.org/html/2606.20363#S4.E2) 决定候选技能的开始和结束位置;方程3 (https://arxiv.org/html/2606.20363#S4.E3) 将每个可变长度片段转换为固定长度向量;方程4 (https://arxiv.org/html/2606.20363#S4.E4) 将这些向量转换为用于聚类的距离矩阵;方程5 (https://arxiv.org/html/2606.20363#S4.E5) 将得到的伪标签优化为序列模型使用的嵌入。在方法论上,该流水线结合了简单的离线变化点检测思想[37 (https://arxiv.org/html/2606.20363#bib.bib33)]、高斯最优传输几何[8 (https://arxiv.org/html/2606.20363#bib.bib34),29 (https://arxiv.org/html/2606.20363#bib.bib35),5 (https://arxiv.org/html/2606.20363#bib.bib36)] 和监督对比表示学习[19 (https://arxiv.org/html/2606.20363#bib.bib52)]。结果部分将这些测试围绕主要发现组织:边界召回比边界精度更容易,可读聚类仍局限于源域,学习策略尚未击败简单统计先验。
图1:自动 SKILL.md 生成的研究设计。IW 是用于轨迹分割、技能库构建和 Phase 3 GRPO 策略训练的源数据集;WebArena 和 BrowseComp+ 是完成的保留迁移检查。Mind2Web 零样本和 WorkArena-NLP 仅作为诊断报告,不作为当前 GRPO 迁移的证据。论文评估了边界质量、聚类质量、自动生成与手工制作的 SKILL.md 文件、简单先验以及完成的迁移检查。
4.1 Phase 1:轨迹分割(技能边界检测)
给定一个动作轨迹,我们使用相邻动作距离作为廉价的变化点信号。对于轨迹 (a_0, a_1, …, a_T),我们计算:
Δa_t = ||a_t - a_{t-1}||_2, t ∈ B 如果 Δa_t > θ, (2)
其中 θ 在保留的 IW 数据上通过扫描 Δa_t 的经验百分位数并最大化边界 F1 来选择。边界集 B 将轨迹分割为候选技能片段。每个动作向量有15个归一化特征:一个10维原始动作独热向量、屏幕坐标 (x,y) ∈ [0,1]^2、归一化时间戳、裁剪文本长度和裁剪滚动量。欧几里得分数在这些特征上无权重,并且不使用 DOM、截图、可访问性树或语言状态。对于迁移,我们直接应用 IW 导出的阈值;目标域的阈值扫描仅作为 oracle 诊断报告。在 IW 上,F1 在
相似文章
@omarsar0: 微软研究院的新研究 我看到很多AI工程师手写智能体技能文档,并希望它们能泛化。…
微软研究院推出了SkillOpt,该方法将智能体技能文档视为可训练的外部状态,利用优化器模型进行受限编辑,并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果,在GPT-5.5上准确率提升超过23个百分点,且零额外推理成本,技能可迁移。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387
本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。
为什么企业开始采用 SKILL.md 而不是只依赖 AI 工具?
本文讨论了 SKILL.md 在定义可复用 Agent 技能方面的日益普及,并探讨了与仅依赖 ChatGPT、Claude 等 AI 工具相比,它在离线使用、标准化、工作流以及成本节约等方面的优势。
COLLEAGUE.SKILL:通过专家知识蒸馏实现自动化AI技能生成
本文介绍COLLEAGUE.SKILL,一个开源系统,能够从异构轨迹中自动提炼基于人的AI技能,形成可检查、可纠正、可移植的技能包,使LLM代理能够携带有限的人类专业知识和交互风格表征。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。