COLLEAGUE.SKILL:通过专家知识蒸馏实现自动化AI技能生成

arXiv cs.AI 论文

摘要

本文介绍COLLEAGUE.SKILL,一个开源系统,能够从异构轨迹中自动提炼基于人的AI技能,形成可检查、可纠正、可移植的技能包,使LLM代理能够携带有限的人类专业知识和交互风格表征。

arXiv:2605.31264v1 公告类型:新 摘要:LLM代理越来越多地被期望不仅完成孤立的任务,还要携带人类专业知识、判断和交互风格的有界表征。构建这种基于人的代理仍然困难,因为与个人或角色相关的可操作知识通常嵌入在异构轨迹中,而不是以清晰的指令形式书写。现有的记忆和人格系统捕获了这些证据的片段,而技能框架提供了可移植的打包格式;然而,目前还没有一个端到端的工作流程将这些轨迹提炼成可检查、可纠正且代理可用的技能。我们提出了一种自动化轨迹到技能的提炼系统,通过专家知识蒸馏生成基于人的AI技能。给定目标人员或角色的材料,COLLEAGUE.SKILL生成一个带版本的技能包,包含两个协调的通道:一个能力通道,涵盖实践、心智模型和决策启发式;一个受限行为通道,涵盖沟通风格、交互规则和纠正历史。该包可以检查、调用、通过自然语言反馈更新、回滚、在代理主机间安装,并可选择为受控分发做准备。我们描述了开源系统中实现的工件契约、生成工作流、纠正生命周期、部署面和领域预设。截至撰写本文时,公共仓库约有18.5k GitHub星标;展示列表包含来自165位贡献者的215个技能,以及所有展示技能卡累计超过10万星标。该系统展示了如何将基于人的技能表示为可移植、可纠正的包,而不是不透明的提示或隐藏的记忆。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:26

# 自动AI技能生成:基于专家知识蒸馏
来源:https://arxiv.org/html/2605.31264
Tianyi Zhou Dongrui Liu¹ Leitao Yuan Jing Shao Xia Hu 上海人工智能实验室 \{zhoutianyi, liudongrui, yuanleitao, shaojing, huxia\}@pjlab\.org\.cn

###### 摘要

大型语言模型(LLM)智能体日益期望不仅完成孤立的任务,还能承载人类专业知识、判断力和交互风格的有界表示。构建此类基于人的智能体仍然困难,因为与某个人或角色相关的可操作知识通常嵌入于异构痕迹之中,而非以清晰的指令形式书写。现有的记忆与人格系统能捕获这些证据的片段,而技能框架提供了可移植的封装格式;然而,并没有一个端到端的工作流将这些痕迹提炼成可检查、可修正且可供智能体使用的技能。我们提出了COLLEAGUE\.SKILL(https://github.com/titanwings/colleague-skill),一个自动化的从痕迹到技能的提炼系统,通过专家知识蒸馏生成基于人的AI技能。给定目标人物或角色的素材,COLLEAGUE\.SKILL产生一个带版本号的技能包,包含两个协调的轨道:一个用于实践、心智模型和决策启发式的能力轨道,以及一个用于沟通风格、交互规则和修正历史的有界行为轨道。该包可以被检查、调用、通过自然语言反馈更新、回滚、跨智能体主机安装,并可选择性地准备进行受控分发。我们描述了该开源系统中实现的工件契约、生成工作流、修正生命周期、部署面以及领域预设。在撰写本文时,公共仓库约有18.5k个GitHub星标;技能画廊列出了来自165位贡献者的215个技能,并且所有列出的技能卡累计超过10万星标。该系统展示了如何将基于人的技能表示为可移植、可修正的包,而不是不透明的提示或隐藏的记忆。同事场景是我们的主要且最可控的案例,但我们将相同的提炼与封装范式应用于另外两个领域:名人/公众人物技能(依赖公共证据和来源边界),以及关系技能(需要更强的同意、隐私和本地控制假设)。

## 1 引言

LLM智能体的角色正在从执行孤立的指令转向承载关于工作和交互应如何执行的可复用上下文。在实践中,用户往往希望智能体保存某个人专业知识、记忆或人际风格的有界部分:团队成员的评审判断、专家的决策启发式、公共思想家的心智模型或私密的人际交互模式。我们没有将此需求视为无限制的人模拟,而是将其框架化为*基于人的痕迹到技能提炼*:将一个人或角色的痕迹转化为一个受约束的工件,使有用的知识、交互风格和使用限制变得明确。这种框架并不声称身份替换,并且将生成的对象视为可编辑的技术工件,而不是人本身。

LLM智能体越来越依赖模块化扩展。工具将智能体连接到外部动作,而技能则封装了领域知识、过程、脚本和参考资料,可以按需发现和加载。这遵循了一个更广泛的转变:从单一提示的助手转向通过外部工具、反馈循环和可配置交互模式进行推理和行动的智能体(yaoReAct2023; schickToolformer2023; shinnReflexion2023; wuAutoGen2023)。Agent Skills标准将技能定义为一个以`SKILL.md`文件为中心的文件夹,包含元数据和指令,并可附带脚本、引用和资产(agentskills2026)。Claude Code同样将技能视为可复用的能力,可以直接调用或在相关时加载(claudeskills2026)。因此,该格式正开始充当智能体的可移植能力单元。

然而,当相关的能力或交互模式尚未编写成操作手册时,应如何创建这些技能仍未得到明确规定。在实践中,基于人的知识往往分散在异构痕迹中:即将离职的团队成员的评审标准可能出现在代码注释、事件记录和聊天决策中;公众人物的推理风格可能通过采访、演讲、文章和公共决策表达出来;而关系技能则可能依赖于私密交互历史,这些历史的同意和保留边界很重要。因此,对于LLM智能体而言,挑战不仅在于检索这些素材,还在于将选定的证据提炼成可复用的技能包,使其内容、出处、修正历史和使用限制保持可见。

COLLEAGUE\.SKILL通过自动化的提炼流水线来解决这个问题。项目名称反映了其最初的同事场景:当团队成员离职时,他们的本地判断、评审标准、事件启发式和沟通规范往往会随之消失。已实现的系统将这个想法泛化为一个更广泛的基于人的技能工作流。它将选定的痕迹视为可移植智能体技能的证据,而不是隐藏的记忆存储或声称重现这个人¹¹。¹¹项目仓库:https://github.com/titanwings/colleague-skill。访问于2026-05-28。该系统接受聊天记录、工作文档、电子邮件、截图、公共研究材料、字幕以及轻量级用户描述,然后生成一个技能包,可以检查并安装到Claude Code、OpenClaw、Codex和Hermes等智能体主机中。同事、名人/公众人物和关系变体在来源、证据、同意和分发假设不同的前提下复用此包格式。

我们将此问题研究为*基于人的技能工件*构建。目标不是对个人的无限制对话模型,而是一个有界的包,包含选定的能力、心智模型、沟通约束、示例和使用边界。在工作场所案例中,这可能是工程师的API审查清单、事件分类启发式和升级阈值。在名人或公众人物案例中,可能是基于来源的推理风格和心智模型库。在关系案例中,可能是交互模式的本地表示,应保持可编辑和可删除。输出是一个带版本号的包,其内容可以在用户控制下被检查、修正、回滚、删除或共享。

我们做出四个贡献:

- • 我们形式化了基于人的痕迹到技能提炼作为一个工件问题,具有显式的可移植性、可检查性、可修正性、可组合性和可治理性要求。
- • 我们提出了COLLEAGUE\.SKILL流水线,用于将异构的人类痕迹提炼为一个能力轨道、一个有界行为轨道、元数据、主机安装程序和版本状态。
- • 我们描述了收集、技能渲染、多主机安装、自然语言修正、回滚以及可选的画廊分发的工作流,并支持将领域预设作为同一机制的扩展。
- • 我们记录了开源部署、公共画廊和扩展预设,这些将工件格式转化为外部可检查的分发面。

## 2 问题形式化

我们使用*基于人的技能*来描述一种技能,其指令基于关于某个人或角色的证据,同时受限于显式的来源、使用和治理约束。同事场景是本研究的主要实例,因为工作专业知识提供了最清晰的实用性目标和治理边界。然而,更广泛的对象并不仅限于同事:相同的工件形式可以在不同的证据和同意假设下表示公共心智模型或私密交互模式。

我们将*基于人的技能生成*定义为一个工件问题。给定一个轻量级档案`p`、一个源范围`c`以及一组源材料`D = {d1, ..., dn}`,系统产生一个技能包:

`(A, M, L)`

其中`A`是一组生成的文件,`M`是机器可读的元数据和安装信息,`L`是生命周期状态,如版本、更新时间、修正次数和回滚历史。

目标不是隐藏的模型,用于预测真人对每个可能的提示会说什么。目标是一个具体的包,将选定的实践和交互规范提炼为五个可操作属性:

1.  可移植性:兼容技能的智能体可以通过普通的技能机制加载该包;
2.  可检查性:用户可以在使用前读取提取的规则、示例、限制和元数据;
3.  可组合性:完整的、仅工作的和仅人格的入口点可以分别调用;
4.  可修正性:新的证据或用户反馈可以更新包,同时保留先前的状态;
5.  可治理性:元数据、来源边界和免责声明支持删除、共享决定和安全审查。

不同的领域以不同方式实例化`D`。同事技能可能包括设计文档、代码评审评论、聊天决策、事件记录和其他工作痕迹。公众人物技能应优先使用公共第一人称证据和长篇采访。关系技能可能包含私密痕迹,使得同意和本地控制成为技术问题的一部分,而不是部署后的考虑。

这种形式化使COLLEAGUE\.SKILL的主张比行为克隆更狭窄。系统并不断言生成的技能是某个人的忠实模型。它断言选定的痕迹可以转化为一个与技能兼容的工件,具有显式的文件、元数据、入口点、修正记录和生命周期操作。这个范围使得贡献具体化:即使在下游的人为对象或任务绩效研究可用之前,该工件也可以针对结构、来源边界、更新行为和部署兼容性进行检查。

## 3 COLLEAGUE\.SKILL系统概述

图1(https://arxiv.org/html/2605.31264#S3.F1)显示了已部署的COLLEAGUE\.SKILL架构。核心路径始于目标人物或角色的痕迹:同事的工作文档和评审评论,公众人物的公开采访和长篇写作,或关系预设的私密交互记录。收集器和解析器将这些素材规范化为本地知识目录。分析器提取关于持久能力、心智模型和有界交互风格的证据;构建器渲染结构化的Markdown;共享的写入器生成最终的技能包。生成的包可以直接调用,安装到支持的主机中,通过修正记录进行修订,或者在源权利和元数据允许时,准备用于画廊分发。

参见图注

图1: COLLEAGUE\.SKILL架构,用于自动化的基于人技能生成。共享的提炼核心产出可移植的智能体技能工件;领域预设添加了来源要求、证据检查、同意的默认设置以及生命周期或画廊元数据。### 3.1 应用预设

COLLEAGUE\.SKILL将`colleague`作为主要预设,因为它提供了一个具体且社会有用的起点:将团队成员的实践、标准和沟通规范转化为可检查的技能。实现还使源领域显式化,以便相同的工件工作流可以在不同的证据和同意假设下复用。该仓库当前定义了三个预设:`colleague`、`celebrity`和`relationship`。每个预设指定了来源边界、存储根目录、命令别名、提示包以及可选的研究或安全工具。

参见图注

图2: 构建在COLLEAGUE\.SKILL基于人技能流水线上的应用预设。共享的工件工作流分支为同事、名人和关系预设,具有不同的证据范围、治理要求和调用别名。这些预设是同一基于人工件工作流的领域特化,而不是独立的系统。它们避免了在需要不同提示、来源边界、同意默认设置或发布规则时复制整个流水线。添加未来的预设,例如`self`、`author`或`team`,则变成配置和提示设计变更,而不是新程序。

### 3.2 双重表示

生成的COLLEAGUE\.SKILL工件使用双重表示。工作或能力轨道捕获职责、工作流、技术标准、评审标准、决策启发式以及从过去工作中学到的经验教训。该实现将第二个轨道命名为`persona.md`,但其技术角色更窄:它存储有界的行为约束、表达偏好、交互规则和修正记录。因此,组合的运行时规则不是开放式的模仿。智能体应选择相关的行为约束,应用能力或心智模型轨道,并产生一个保持在工件规定边界内的响应。

这种分离很重要,因为人格系统中的许多失败源于混淆了三件不同的事情:事实知识、程序性判断和表面语气。COLLEAGUE\.SKILL使这些部分可检查,并通过完整的、仅能力的和仅人格的生成工件分别调用。在同事案例中,这使得主要对象专注于可复用的专家判断,而不是模拟的人;在名人/公众人物和关系预设中,同样的分离防止基于来源的心智模型或私密交互规则成为系统身份。

### 3.3 工件模式与写入器

写入器将元数据规范化为一个带版本号的模式,包含身份、预设家族、来源上下文、分类、工件名称、引擎和工具链元数据、生成出处、生命周期状态和兼容性字段。当前实现使用模式版本3。然后它渲染:

- • `SKILL.md`:组合的可调用技能;
- • `work.md`和`persona.md`:可编辑的源文档;
- • `work_skill.md`和`persona_skill.md`:独立可调用的子技能;
- • `manifest.json`和`meta.json`:安装、可选的画廊和生命周期元数据。

这与Agent Skills标准一致,其中`SKILL.md`是必需的入口点,可选文件可以提供脚本或引用(agentskillsspec2026)。设计还遵循渐进式揭露:智能体首先看到技能元数据,仅在技能被调用时才加载详细指令(agentskills2026; claudeskills2026)。

组合的`SKILL.md`包含标准技能前导数据,包括生成的名称、描述和`user-invocable: true`。其主体将能力轨道嵌入为A部分,行为轨道嵌入为B部分。分开的入口点独立暴露相同的轨道。这使得运行时行为显式:工件可以用作完整的基于人技能、仅能力的技能或仅行为的风格参考。

表1: 由共享写入器发出的运行时工件契约。

## 4 生成与演化工作流

### 4.1 创建工作流

创建始于共享的基于人提炼路径:用户为目标人物或角色提供一个别名、可选的档案字段和源材料。仓库支持的收集器和导入路径涵盖飞书、钉钉、Slack、微信SQLite导出、电子邮件存档、PDF、截图、Markdown和直接粘贴等来源。应用预设触

相似文章

SkillGen:经过验证的推理时代理技能合成

arXiv cs.LG

本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。

SkillNet:创建、评估并连接AI技能

Papers with Code Trending

SkillNet 提供了一个开放的基础设施,通过统一的本体系统地积累和迁移 AI 技能,在多个领域展现了智能体性能的显著提升。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。