利用技能程序驾驭LLM智能体
摘要
HASP是一种框架,将智能体技能升级为可执行的程序函数,充当防护栏,实现对LLM智能体循环的直接干预,并在网页搜索、数学推理和编程等复杂任务上提升性能。
查看缓存全文
缓存时间: 2026/05/20 18:39
论文页面 - 利用技能程序驾驭LLM智能体
来源:https://huggingface.co/papers/2605.17734
摘要
HASP引入了可执行的程序函数,作为LLM智能体的主动护栏,能够直接干预智能体循环,并在复杂任务中提升性能。
利用从过往经验中提取的可复用技能来装备LLM智能体(https://huggingface.co/papers?q=LLM%20agents),已成为解决复杂长时任务的一种流行且成功的方法。然而,这类经验教训通常以文本指导的形式编码,基本停留在建议层面,缺乏何时以及如何干预智能体循环的明确机制。为填补这一空白,我们提出了HASP(利用技能程序驾驭LLM智能体,Harnessing LLM Agents with Skill Programs)这一新框架,将技能升级为可执行的程序函数(Program Functions, PFs)。PF并非提供被动建议,而是充当可执行的护栏(https://huggingface.co/papers?q=executable%20guardrails),在易出错的状态下被激活,修改下一步行动或注入纠正性上下文。HASP具有高度模块化特性:可在推理时直接干预智能体循环,在训练后(https://huggingface.co/papers?q=post-training)提供结构化监督,或通过演经验证的、由教师审查的PF实现自我改进(https://huggingface.co/papers?q=self-improvement)。实验表明,在网页搜索、数学推理(https://huggingface.co/papers?q=math%20reasoning)和编程任务(https://huggingface.co/papers?q=coding%20tasks)上,与无训练和基于训练的方法相比,HASP带来了显著提升。例如,在网页搜索推理(https://huggingface.co/papers?q=web-search%20reasoning)中,仅推理时使用的PF就比(多循环)ReAct智能体(https://huggingface.co/papers?q=ReAct%20Agent)平均性能提升25%,而训练后(https://huggingface.co/papers?q=post-training)和受控演化相较于Search-R1(https://huggingface.co/papers?q=Search-R1)则实现了30.4%的提升。为深入理解HASP,我们的机制分析揭示了PF如何触发和干预、技能如何内化,以及稳定技能库演化的要求。
查看arXiv页面(https://arxiv.org/abs/2605.17734)查看PDF(https://arxiv.org/pdf/2605.17734)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.17734)
在你的智能体中获取此论文:
hf papers read 2605.17734
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
在模型README.md中引用arxiv.org/abs/2605.17734即可从本页链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集README.md中引用arxiv.org/abs/2605.17734即可从本页链接。
引用此论文的Spaces0
没有Space关联此论文
在Space README.md中引用arxiv.org/abs/2605.17734即可从本页链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到一个收藏(https://huggingface.co/new-collection)即可从本页链接。
相似文章
Formal Skill: 面向高效精准LLM智能体的可编程运行时技能
本文介绍了Formal Skill,这是一种面向LLM智能体的运行时原生抽象,它将可重用流程编码为可执行状态机,配有JSON元数据、Python执行器和钩子控制的逻辑。还介绍了一个名为FairyClaw的开源实现,在Harness-Bench上展示了具有竞争力的性能,且减少了token使用量。
技能并非通用:面向LLM智能体的模型感知技能对齐
本文提出MASA框架,该框架在不修改模型权重的情况下,通过分层进化和模型条件重写器将技能适配到每个LLM骨干网络,相比基线方法最高提升25.8个点。
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
你的语言模型不需要更好的提示——它需要一个代理控制框架
文章讨论了Agent控制框架工程(Agent Harness Engineering)的必要性,包括工具验证、上下文管理、护栏、遥测和验证循环等结构化系统,以使LLM代理在生产中可靠,并认为仅靠更好的提示是不够的。