Formal Skill: 面向高效精准LLM智能体的可编程运行时技能
摘要
本文介绍了Formal Skill,这是一种面向LLM智能体的运行时原生抽象,它将可重用流程编码为可执行状态机,配有JSON元数据、Python执行器和钩子控制的逻辑。还介绍了一个名为FairyClaw的开源实现,在Harness-Bench上展示了具有竞争力的性能,且减少了token使用量。
arXiv:2605.19604v1 Announce Type: new
摘要:大型语言模型(LLM)智能体越来越多地在真实工作空间中行动,工具和技能决定了模型推理能否转化为可靠的行为。现有的技能大多是非形式化的:Markdown技能和指令包将流程编码为冗长的自然语言文档,而函数调用、模型上下文协议(MCP)服务器和框架工具虽然能结构化单个动作,但通常将工作流状态、策略执行和完成纪律排除在技能本身之外。我们介绍了Formal Skill,这是一种运行时原生抽象,利用JSON元数据和动作模式、可靠的Python执行器、钩子控制的逻辑、Formal Skill路由以及技能本地运行时状态来表示可重用能力。通过将可重用流程从重复的提示文本转移到可执行状态机和钩子策略中,Formal Skill为智能体提供了一个高效使用token且可强制实施的控制面。我们在FairyClaw中实现了该抽象,这是一个开源的事件驱动运行时,用于可执行、可观察和可组合的Formal Skills。在Harness-Bench上,FairyClaw在使用了大幅减少的token数量的同时,取得了极具竞争力的平均分数,尤其是在那些凸显Formal Skill作用的任务上表现尤为突出。
相似文章
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
利用技能程序驾驭LLM智能体
HASP是一种框架,将智能体技能升级为可执行的程序函数,充当防护栏,实现对LLM智能体循环的直接干预,并在网页搜索、数学推理和编程等复杂任务上提升性能。
技能并非通用:面向LLM智能体的模型感知技能对齐
本文提出MASA框架,该框架在不修改模型权重的情况下,通过分层进化和模型条件重写器将技能适配到每个LLM骨干网络,相比基线方法最高提升25.8个点。
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
SkillSmith: 将智能体技能编译为边界引导的运行时接口
SkillSmith是一个边界优先的编译器-运行时框架,从LLM智能体技能中提取细粒度的操作边界,使智能体能够动态访问仅相关的组件,在SkillsBench基准测试上减少了57.44%的求解阶段令牌使用量和42.99%的思考迭代次数。