Contract2Tool:学习前提与效果以实现可靠的工具增强型LLM代理

arXiv cs.AI 论文

摘要

本文介绍了Contract2Tool,一个从工具元数据、文档和执行轨迹中自动推断轻量级工具契约(前提条件、效果、风险)的框架,为LLM代理实现可靠的因果工具过滤。实验表明,学习到的契约在下游多步骤代理任务中达到了接近黄金契约的性能,同时显著减少了token使用量。

arXiv:2606.07904v1 公告类型:新 摘要:工具增强型大型语言模型代理越来越依赖外部API,但标准工具模式描述了如何调用工具,而未说明工具在因果上何时合适或产生何种任务状态。因果工具过滤通过指定每个工具的前提条件、效果、风险等级和成本的轻量级契约来解决这一差距。然而,手动编写和维护此类契约无法扩展到大型或不断变化的工具生态系统。我们提出了Contract2Tool,一个从元数据、模式、文档和执行轨迹中推断工具契约的框架。Contract2Tool将可观察的工具证据转换为标准化的符号契约,这些契约可以内在评估并部署到下游的因果工具过滤中。我们根据黄金前提条件、效果和风险标签评估学习到的契约,并测量其在下游多步代理任务中的实用性。我们的结果表明,混合文档与轨迹证据产生的契约足够准确,能够保留黄金契约的大部分可靠性和效率优势。学习契约的CMTF在下游成功率达到0.980,接近黄金契约CMTF的0.990,同时将可见工具从100个减少到1个,并将平均token使用量从所有工具暴露时的26,172降低到2,528。这些结果表明,学习到的契约可以在工具模式和可靠的代理执行之间提供一个可扩展的契约层。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:53

# Contract2Tool: 学习可靠工具增强型LLM代理的前提条件与效果

###### 摘要

工具增强型大型语言模型代理越来越依赖外部API,但标准工具模式描述了如何调用工具,而没有说明该工具在因果上何时合适或它产生什么任务状态。因果工具过滤通过使用轻量级契约来弥补这一差距,该契约指定每个工具的前提条件、效果、风险级别和成本。然而,手动编写和维护此类契约难以扩展到大型或变化的工具生态系统。我们提出Contract2Tool,一个从元数据、模式、文档和执行轨迹中推断工具契约的框架。Contract2Tool将可观察的工具证据转化为标准化的符号契约,这些契约可以在内在评估,并部署到下游的因果工具过滤中。我们针对黄金标准的前提条件、效果和风险标签评估了学习到的契约,并测量了它们在多步代理任务中的下游效用。我们的结果表明,混合文档和轨迹证据产生的契约足够准确,足以保留黄金标准契约的大部分可靠性和效率优势。基于学习契约的因果最小工具过滤(CMTF)实现了0.980的下游成功,接近黄金契约CMTF的0.990,同时将可见工具从100个减少到1个,并将平均令牌使用量从26,172减少到2,528,相对于所有工具暴露。这些结果表明,学习到的契约可以在工具模式和可靠代理执行之间提供一个可扩展的契约层。

## 一、引言

工具增强型大型语言模型(LLM)代理越来越依赖外部API来搜索信息、读写文件、更新日历、起草邮件、执行代码以及与结构化系统交互[11 (https://arxiv.org/html/2606.07904#bib.bib11),9 (https://arxiv.org/html/2606.07904#bib.bib9),8 (https://arxiv.org/html/2606.07904#bib.bib8),4 (https://arxiv.org/html/2606.07904#bib.bib4)]。标准的函数调用接口使用名称、自然语言描述和输入模式来描述工具。这些字段帮助模型构建有效的工具调用,但它们没有明确指定工具在因果上何时合适、需要什么任务状态、产生什么状态,或该动作的风险有多大。

近期关于因果工具过滤的工作激发了基于契约的工具暴露观点:工具可以通过轻量级的前提条件和效果来表示,使得代理接口能够在每一步只暴露因果上必要的工具[2 (https://arxiv.org/html/2606.07904#bib.bib2)]。然而,这会将负担转移到契约构建上。为数百或数千个工具手动定义契约成本高昂、容易出错,并且难以与不断变化的API、文档和执行行为保持同步。

本文研究自动学习轻量级工具契约的问题。我们探究是否可以从可观察的证据(如工具名称、描述、模式、文档和执行轨迹)中推断出工具的前提条件、效果和风险注释。核心问题不仅仅是模型能否生成合理的契约字段,而是学习到的契约是否保留了在多步执行过程中暴露下一个正确工具所需的因果结构。特别是,执行轨迹提供了执行前后的状态转换,可以揭示模式与文档中遗漏或含糊描述的效果。

本文的关键论点是,工具契约构成了模式与可靠代理执行之间缺失的一层。模式描述如何调用工具;契约描述何时应该暴露工具以及它启用了什么任务状态转换。我们提出Contract2Tool,一个用于推断此类契约并进行内在评估、通过过滤器-预言机因果前沿测试以及在下游因果工具过滤中进行评估的框架。实验发现,混合文档和轨迹证据产生的契约在预言机评估中恢复了黄金因果过滤前沿,并且基于学习契约的因果最小工具过滤在下游任务成功方面几乎与基于黄金契约的因果最小工具过滤相匹配,同时相对于非因果基线大幅减少了工具暴露和令牌成本。

贡献。本文做出以下贡献:

1. 1. 我们将工具契约学习形式化为推断工具增强型LLM代理的前提条件、效果、风险注释和可选成本标签的问题。
2. 2. 我们提出Contract2Tool,一个从工具元数据、模式、文档和执行轨迹中生成轻量级工具契约的框架。
3. 3. 我们定义了契约质量的内在指标,包括前提条件的精确率和召回率、效果的精确率和召回率、风险准确率、精确契约匹配率以及无效输出率。
4. 4. 我们通过过滤器-预言机因果前沿测试以及下游在多步工具使用代理中评估学习到的契约。
5. 5. 我们表明,混合文档和轨迹契约使得基于学习契约的因果最小工具过滤几乎与基于黄金契约的因果最小工具过滤相匹配,同时相对于所有工具、关键词和状态感知基线减少了工具暴露和令牌使用。

## 二、背景与相关工作

### 二-A 工具增强型LLM代理

工具使用已成为将LLM扩展到文本生成之外的核心机制。ReAct引入了交织推理与行动[11 (https://arxiv.org/html/2606.07904#bib.bib11)],Toolformer展示了语言模型可以学习调用外部API[9 (https://arxiv.org/html/2606.07904#bib.bib9)],ToolLLM/ToolBench将工具使用评估扩展到大型API生态系统[8 (https://arxiv.org/html/2606.07904#bib.bib8)]。诸如API-Bank之类的基准进一步评估了工具增强对话和多步API使用[4 (https://arxiv.org/html/2606.07904#bib.bib4)]。这些工作确立了工具使用作为核心代理能力,但它们也暴露了一个系统挑战:随着工具生态系统的增长,代理需要可靠的机制来选择、排序和约束工具使用。

### 二-B 工具模式、函数调用与工具检索

函数调用接口通常使用名称、自然语言描述和输入模式来表示工具。这些字段帮助模型构建语法上有效的工具调用,函数调用基准评估诸如工具选择、参数构建和多轮使用等能力[7 (https://arxiv.org/html/2606.07904#bib.bib7)]。然而,模式主要描述如何调用工具;它们没有完全指定何时应该暴露工具、需要什么任务状态变量、产生什么变量,或动作的风险有多大。

工具检索和剪枝方法通过从大型注册表中选择相关工具来解决可扩展性问题。先前的工作研究了大型工具库上的检索[10 (https://arxiv.org/html/2606.07904#bib.bib10)]以及上下文感知的过滤或合并重叠工具[5 (https://arxiv.org/html/2606.07904#bib.bib5)]。这些方法减少了提示大小和歧义,但它们大多将过滤视为相关或候选项选择问题。Contract2Tool则针对因果工具过滤所需的契约级语义:前提条件、效果和风险注释。

### 二-C 因果工具过滤与工具契约

因果工具过滤激发了基于契约的工具暴露观点。在此观点中,一个工具不仅由名称和模式表示,还由它所需的状态变量、它产生的状态变量以及其风险或成本概况表示。此类契约允许代理接口基于因果必要性而非仅凭语义相关性来暴露工具[2 (https://arxiv.org/html/2606.07904#bib.bib2)]。其局限性在于这些契约通常被假定为可用。Contract2Tool通过研究是否可以从可观察的工具证据中自动学习有用的契约来解决这一假设。

### 二-D 规划中的前提条件与效果

前提条件-效果抽象根植于经典规划。STRIPS通过执行前所需的条件和执行后产生的效果来表示动作[3 (https://arxiv.org/html/2606.07904#bib.bib3)]。PDDL后来标准化了动作、状态和目标的相关概念[6 (https://arxiv.org/html/2606.07904#bib.bib6)]。Contract2Tool将此抽象适应于工具增强型LLM代理:工具被视为状态转换,目标是推断描述每个工具在工作流中角色的前提条件和效果。

### 二-E 运行时可靠性与代理编排

运行时编排系统研究工具增强型代理如何监控执行、检测故障并从中恢复。例如,自愈代理编排器将可靠性框架化为针对使用工具的代理的监控-诊断-恢复-验证循环[1 (https://arxiv.org/html/2606.07904#bib.bib1)]。因果过滤通过控制可见动作空间在运行时之前减少一些故障。Contract2Tool针对这些方法之间缺失的层:自动构建主动过滤和可靠编排所需的契约。

## 三、问题形式化

### 三-A 工具证据与契约目标

令T={t1,t2,...,tn}表示一个工具库,令X表示代理工作流使用的任务状态变量词汇。每个工具ti具有可观察的证据:

zi=(namei,di,Si,Di,Hi), (1)

其中namei是工具名称,di是自然语言描述,Si是输入/输出模式,Di是可选的文档,Hi是可选的执行轨迹集。

一个轻量级工具契约是:

ci=(Ri,Ei,ρi,ki), (2)

其中Ri⊆X是所需的状态变量集或前提条件,Ei⊆X是产生的状态变量集或效果,ρi是风险标签,ki是可选的成本或延迟估计。模式描述如何调用工具;契约描述工具何时合适以及它启用了什么任务状态转换。

### 三-B 契约学习目标

契约学习任务是从可观察证据zi推断预测的契约:

ĉi=(R̂i,Êi,ρ̂i,k̂i) (3)

更一般地,一个契约生成器fθ将工具证据映射到预测的契约:

fθ(zi)=ĉi. (4)

目标不仅仅是精确匹配黄金契约,而是推断出对下游工具过滤有用的契约。一个学习到的契约可能不完美,但可能仍保留足够的因果结构以提高代理可靠性。

### 三-C 内在准确性与下游效用

我们区分两种评估设置。内在评估测量预测契约是否匹配黄金契约。对于前提条件和效果,这可以通过与黄金字段的集合精确率、召回率和F1来衡量。对于风险标签,可以通过分类准确率来衡量。

下游评估测量学习到的契约在被因果工具过滤方法使用时是否支持可靠执行。令C={ci}i=1n表示黄金契约集,Ĉ={ĉi}i=1n表示学习到的契约集。下游问题是使用Ĉ的代理是否保留了使用C的代理的可靠性和效率。

契约错误主要通过两种方式影响过滤。过度过滤发生在学习到的契约过于严格并隐藏了下一步所需的工具时。过滤不足发生在学习到的契约过于宽松并暴露了不相关、过早或非目标导向的工具时。Contract2Tool通过同时测量内在契约质量和在这些学习契约下的下游代理行为来评估。

## 四、Contract2Tool方法

Contract2Tool将可观察的工具证据转化为标准化的符号契约,用于下游工具过滤。如图1所示,该流水线有四个阶段:为每个工具构建证据视图,生成原始契约预测,标准化和验证预测字段,以及为下游过滤生成学习到的契约集。当可用时,执行轨迹可以作为证据视图的一部分包含在内。最终输出是一个学习到的契约集

Ĉ={ĉi∣i=1,...,n}. (5)

这个学习到的契约集可以替代手动指定的契约。

**工具证据** (名称、描述、模式、文档、轨迹) → **契约生成器** → **原始契约预测** (需要、产生、风险、成本) → **标准化与验证** (规范化、验证、去重) → **学习到的工具契约** (规范的前提条件、效果、风险、成本)

图1:Contract2Tool概述。可观察的工具证据通过生成、标准化和验证转化为标准化的符号契约,然后被下游因果工具过滤方法使用。

### 四-A 证据条件

Contract2Tool在不同的可用工具证据水平下运行。我们评估逐步丰富的证据条件,以衡量额外信息如何影响契约质量:

- • 名称:仅工具名称。
- • 元数据:工具名称和自然语言描述。
- • 模式:元数据加上输入/输出模式。
- • 文档:元数据和模式加上简短的API风格文档。
- • 轨迹:包含执行前后任务状态、工具输出和执行状态的执行轨迹。
- • 混合:文档和轨迹的组合。

这些条件反映了工具生态系统中实际可用的信息水平。一些系统只暴露名称和模式,而成熟系统可能还维护文档和执行日志。该框架可以在可用时同时纳入成功和失败的轨迹;在实验中,我们主要使用受控的成功任务轨迹,通过执行前后的状态变化来暴露产生的状态变量。

### 四-B 契约生成

给定工具ti在条件m下的证据视图zi(m),契约生成器fθ产生一个结构化的契约预测:

fθ(zi(m))=ĉi. (6)

预测的契约包含前提条件、效果、风险和可选成本字段。例如,一个日历更新工具可能需要事件标识符,产生更新事件状态,并因修改外部状态而获得高风险标签。“需要”和“产生”字段被解释为任务状态变量。“风险”字段从固定标签集合(如低、中、高)中选择。“成本”字段是可选的,可能表示粗略的延迟、令牌或执行成本。可以生成理由供检查,但下游过滤仅使用结构化的契约字段。

### 四-C 标准化与验证

生成的契约可能包含同义词、无效变量、重复条目或格式错误的输出。因此,Contract2Tool在使用预测契约之前应用一个标准化和验证层。该层假设基准或部署环境有一个预定义的规范状态变量词汇表。标准化映射生成

相似文章

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。