利用技能程序驾驭LLM智能体

Hugging Face Daily Papers 论文

摘要

HASP是一种框架,将智能体技能升级为可执行的程序函数,充当防护栏,实现对LLM智能体循环的直接干预,并在网页搜索、数学推理和编程等复杂任务上提升性能。

为LLM智能体配备从过往经验中提取的可复用技能已成为处理复杂长周期任务的流行且成功的方法。然而,这些经验通常以文本指导的形式编码,大多停留在建议层面,缺乏在智能体循环中何时及如何干预的明确机制。为弥补这一差距,我们提出HASP(利用技能程序驾驭LLM智能体),这一新框架将技能升级为可执行的程序函数(PF)。程序函数不是提供被动建议,而是充当可执行的防护栏,在易出错的节点激活,修改下一步行动或注入纠正性上下文。HASP高度模块化:可在推理时直接干预智能体循环,在训练后提供结构化监督,或通过演变经过验证、教师审查的PF实现自我改进。实验表明,与无训练和基于训练的方法相比,HASP在网页搜索、数学推理和编程任务上带来了显著提升。例如,在网页搜索推理中,仅推理阶段的PF相对于(多循环)ReAct智能体平均性能提升25%,而训练后及受控演变相比Search-R1实现了30.4%的提升。为深入理解HASP,我们的机制分析揭示了PF如何触发和干预、技能如何内化,以及稳定技能库演变的要求。
查看原文
查看缓存全文

缓存时间: 2026/05/20 18:39

论文页面 - 利用技能程序驾驭LLM智能体

来源:https://huggingface.co/papers/2605.17734

摘要

HASP引入了可执行的程序函数,作为LLM智能体的主动护栏,能够直接干预智能体循环,并在复杂任务中提升性能。

利用从过往经验中提取的可复用技能来装备LLM智能体(https://huggingface.co/papers?q=LLM%20agents),已成为解决复杂长时任务的一种流行且成功的方法。然而,这类经验教训通常以文本指导的形式编码,基本停留在建议层面,缺乏何时以及如何干预智能体循环的明确机制。为填补这一空白,我们提出了HASP(利用技能程序驾驭LLM智能体,Harnessing LLM Agents with Skill Programs)这一新框架,将技能升级为可执行的程序函数(Program Functions, PFs)。PF并非提供被动建议,而是充当可执行的护栏(https://huggingface.co/papers?q=executable%20guardrails),在易出错的状态下被激活,修改下一步行动或注入纠正性上下文。HASP具有高度模块化特性:可在推理时直接干预智能体循环,在训练后(https://huggingface.co/papers?q=post-training)提供结构化监督,或通过演经验证的、由教师审查的PF实现自我改进(https://huggingface.co/papers?q=self-improvement)。实验表明,在网页搜索、数学推理(https://huggingface.co/papers?q=math%20reasoning)和编程任务(https://huggingface.co/papers?q=coding%20tasks)上,与无训练和基于训练的方法相比,HASP带来了显著提升。例如,在网页搜索推理(https://huggingface.co/papers?q=web-search%20reasoning)中,仅推理时使用的PF就比(多循环)ReAct智能体(https://huggingface.co/papers?q=ReAct%20Agent)平均性能提升25%,而训练后(https://huggingface.co/papers?q=post-training)和受控演化相较于Search-R1(https://huggingface.co/papers?q=Search-R1)则实现了30.4%的提升。为深入理解HASP,我们的机制分析揭示了PF如何触发和干预、技能如何内化,以及稳定技能库演化的要求。

查看arXiv页面(https://arxiv.org/abs/2605.17734)查看PDF(https://arxiv.org/pdf/2605.17734)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.17734)

在你的智能体中获取此论文:

hf papers read 2605.17734

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2605.17734即可从本页链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2605.17734即可从本页链接。

引用此论文的Spaces0

没有Space关联此论文

在Space README.md中引用arxiv.org/abs/2605.17734即可从本页链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏(https://huggingface.co/new-collection)即可从本页链接。

相似文章

Formal Skill: 面向高效精准LLM智能体的可编程运行时技能

arXiv cs.AI

本文介绍了Formal Skill,这是一种面向LLM智能体的运行时原生抽象,它将可重用流程编码为可执行状态机,配有JSON元数据、Python执行器和钩子控制的逻辑。还介绍了一个名为FairyClaw的开源实现,在Harness-Bench上展示了具有竞争力的性能,且减少了token使用量。