Formal Skill: 面向高效精准LLM智能体的可编程运行时技能

arXiv cs.AI 论文

摘要

本文介绍了Formal Skill,这是一种面向LLM智能体的运行时原生抽象,它将可重用流程编码为可执行状态机,配有JSON元数据、Python执行器和钩子控制的逻辑。还介绍了一个名为FairyClaw的开源实现,在Harness-Bench上展示了具有竞争力的性能,且减少了token使用量。

arXiv:2605.19604v1 Announce Type: new 摘要:大型语言模型(LLM)智能体越来越多地在真实工作空间中行动,工具和技能决定了模型推理能否转化为可靠的行为。现有的技能大多是非形式化的:Markdown技能和指令包将流程编码为冗长的自然语言文档,而函数调用、模型上下文协议(MCP)服务器和框架工具虽然能结构化单个动作,但通常将工作流状态、策略执行和完成纪律排除在技能本身之外。我们介绍了Formal Skill,这是一种运行时原生抽象,利用JSON元数据和动作模式、可靠的Python执行器、钩子控制的逻辑、Formal Skill路由以及技能本地运行时状态来表示可重用能力。通过将可重用流程从重复的提示文本转移到可执行状态机和钩子策略中,Formal Skill为智能体提供了一个高效使用token且可强制实施的控制面。我们在FairyClaw中实现了该抽象,这是一个开源的事件驱动运行时,用于可执行、可观察和可组合的Formal Skills。在Harness-Bench上,FairyClaw在使用了大幅减少的token数量的同时,取得了极具竞争力的平均分数,尤其是在那些凸显Formal Skill作用的任务上表现尤为突出。
查看原文

相似文章

利用技能程序驾驭LLM智能体

Hugging Face Daily Papers

HASP是一种框架,将智能体技能升级为可执行的程序函数,充当防护栏,实现对LLM智能体循环的直接干预,并在网页搜索、数学推理和编程等复杂任务上提升性能。

SkillSmith: 将智能体技能编译为边界引导的运行时接口

arXiv cs.AI

SkillSmith是一个边界优先的编译器-运行时框架,从LLM智能体技能中提取细粒度的操作边界,使智能体能够动态访问仅相关的组件,在SkillsBench基准测试上减少了57.44%的求解阶段令牌使用量和42.99%的思考迭代次数。