面向知识驱动工具使用工作流的AI代理声明式技能

arXiv cs.AI 论文

摘要

本文研究了客户服务工作流中工具使用AI代理的编排机制,比较了声明式代理与命令式状态机及基准方法的性能。结果表明检索质量是关键瓶颈,在高质量检索下,声明式技能可提升程序性任务的准确性。

arXiv:2606.06923v1 公告类型:新\n摘要:我们研究了在基于非结构化知识库的现实客户服务工作流中,使用工具的AI代理的编排机制。我们认为声明式代理——即配备自然语言技能文件并附加到系统提示中的AI代理——是一种有效的编排范式。具体而言,我们比较了(i)声明式代理(DeclarativeAgent),它在推理时读取三个领域特定的技能文件并自行决定其控制流;(ii)命令式代理(ImperativeAgent),它基于具有显式阶段的程序化状态机;(iii)一个无额外框架的基准代理,其模型仿照$\\tau$-Knowledge基准代理。我们的命令式代理受递归语言模型和基于图的编排框架中外化控制推断的启发。我们将这三种代理形式化为分散部分可观测马尔可夫决策过程中的策略类,并分析了它们的信息论和结构特性;随后,我们在五种语言模型和两种检索机制下对预测的差异进行了实证测试。结果表明检索质量是AI代理的主要瓶颈:当证据不完整或有偏差时,所有代理的性能都大幅下降,技能文件无法恢复丢失的性能。然而,在高质量检索下,声明式技能在程序性任务上持续提高准确性并减少编排错误,而命令式状态机的脆弱性并不能可靠地提高任务成功或合规性。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:14

# 基于知识库工具使用工作流中AI代理的声明式技能

来源:https://arxiv.org/html/2606.06923

M. Danish Lim, I. Danial Bin Sharudin, Wen Han Chen, Cedric Lim, Laura Wynter  
新加坡管理大学计算与信息系统学院

###### 摘要

我们研究了在非结构化知识库上进行实际客服工作流的工具型AI代理编排机制。我们认为声明式代理——即配备自然语言技能文件并附加到系统提示中的AI代理——是一种有效的编排范式。具体来说,我们比较了以下三种代理:(i) 声明式代理,在推理时读取三个领域特定的技能文件并自行决定控制流;(ii) 基于程序化状态机的命令式代理,具有明确的阶段划分;(iii) 无脚手架基线代理,其模型基于τ-Knowledge基准代理。我们的命令式代理受递归语言模型和基于图的编排框架中的外部化控制推理启发。我们将这三种代理视为分散式部分可观测马尔可夫决策过程中的策略类,并分析了它们的信息论和结构属性;随后在五个语言模型和两种检索机制上对预测的差异进行了实证测试。结果表明,检索质量是AI代理的主要瓶颈:当证据不完整或存在偏差时,所有代理性能均大幅下降,技能文件无法恢复丢失的性能。然而,在高性能检索下,声明式技能在程序化任务上持续提升准确性,并减少编排错误,而命令式状态机的脆弱性并不能可靠地提高任务成功或合规性。代码将在发表后提供。

## 1 引言

使用工具的AI代理扩展了生成式语言模型,使其能够对外部系统进行操作。随着这类代理的大规模部署,评估其在真实世界任务中的表现已成为核心研究问题。我们关注一类通用且具有重要实际意义的代理:客服工作流,它结合了三种截然不同的能力:*对话*(问候用户、引出并澄清意图)、*程序化*(确定排序约束、所需验证以及工具调用序列)以及*推理*(解释检索到的文档以选择正确的工具参数)。这些能力在银行客服之外的领域也具有广泛适用性。我们使用了τ-Knowledge [1](这是τ-Bench [2]的扩展),该基准旨在评估AI代理在需要跨大规模非结构化知识库进行协调检索的任务上的表现。与预先提供完整工具接口的先前代理基准不同,τ-Knowledge 允许能力可发现;例如,许多状态变更操作仅在自然语言文档中提及,必须通过知识库搜索才能调用。这被建模为一个分散式部分可观测马尔可夫决策过程 (Dec-POMDP) [4],其共享状态空间为 S = S_DB × S_history,其中 S_DB 是数据库状态(包括用户和系统实体),S_history 是存储的用户与AI代理对话历史。AI代理仅观察工具输出和用户消息,二元任务奖励取决于最终数据库状态 S_DB 是否与人工整理的目标匹配。由于AI代理和用户对状态 S 的观测不对称且不完整,该问题属于POMDP。

我们提出了两种编排AI代理的范式。命令式编排被定义为外部化、确定性的控制。确定性控制在应对LLM的非确定性方面具有广泛吸引力。有人可能认为,对真实世界任务进行端到端LLM推理风险过高,部分控制应当外部化为确定性代码。递归语言模型 (RLMs) [8] 是这一思想的激进形式,主张将LLM输入上下文视为外部环境(如Python REPL变量)。然后,利用RLM,LLM代理以编程方式检查并分解REPL环境,并在较小的子问题上递归调用自身,从子结果中组合最终答案。类似的思想也出现在LangGraph DFAs [10]、ReAct推理-行动循环 [11] 以及众多其他工作中。在我们的实现中,命令式代理拥有阶段图及其转换规则(如写入前验证、有限重试),而LLM则作为每个阶段的子程序被调用。命令式代理的预期优势在于,这种确定性执行将减少幻觉、提高可解释性,并使合规属性更易于审计。

我们研究的第二种编排范式称为声明式。该范式依赖于类似于Anthropic [5] 提出的代理技能方法,该方法建议程序化知识应以自然语言表达,并由模型在运行时按需读取。代理技能是一个Markdown文档,描述何时执行某个操作是合适的、前提条件和顺序约束,以及工具参数要求。LLM将代理技能文件作为其系统提示的一部分进行解释,并在线选择工作流和具体细节。声明式范式的理由在于,LLM自身的注意力机制能够以固定状态图更灵活的方式,将自然语言技能内容与检索到的证据进行整合。

总之,我们定义了以下两种编排代理:
- • **命令式代理**:实现一个有限状态机,具有确定性转换、显式验证门和硬编码的重试策略,代表外部化控制和程序化编排。
- • **声明式代理**:遵循Anthropic风格的代理技能:模型在其系统提示中读取少量Markdown技能文件,并自由选择工作流、工具和验证策略(所有内容均为自然语言形式),无需显式状态机。

我们的贡献在于回答以下问题:对于实际、复杂工作流中的工具型AI代理,基于技能文件的声明式编排是否优于或劣于程序化状态机编排?这些方法在任务成功、鲁棒性、合规性和效率方面存在哪些权衡?我们的命令式和声明式代理范式都有合理的成功论据;命令式方法应减少幻觉并提供可靠结果,而声明式方法应更不易受脆弱性影响。除了评估我们的命令式和声明式编排范式,我们还评估了τ-Knowledge基准论文 [1] 中使用的基线无脚手架LLM代理。

本文结构如下:下一节讨论相关工作。接着,第3节将三种代理视为Dec-POMDP中的策略类,并陈述我们的三个主要研究问题。第4-5节详细描述声明式代理和命令式代理。第6节从理论上分析三种策略类。第7节提供实验设计和主要结果,第8节对代理的合规性和效率进行消融分析。最后,我们总结讨论,将我们的发现与研究问题联系起来。附录包含更多细节。

## 2 相关工作

τ-Knowledge 使用的应用领域是 τ-Banking,一套金融科技客服任务集合。该基准环境包含698份文档(约19.5万token,71个主题,21个产品类别),14个永久代理工具以及51个可发现工具,以及97个评估任务。每个任务平均需要18.6份文档和9.52次工具调用(最多33次)才能解决。论文 [1] 提出的基准评分为 pass^k,虽然论文考虑了 k=1,3,但我们只关注更具挑战性的 pass^1 指标。提供的文档包括产品规格、内部程序政策(例如保留协议、账户关闭资格),以及带有必需参数模式的可发现工具签名。工具名称包含随机的四位数字后缀(例如 close_bank_account_7392),无法猜测。论文使用了两种可发现性方法:“黄金”和检索。黄金表示任务关键文档已提供在系统提示中,而检索则使用外部检索器。基准论文 [1] 同时使用了关键词匹配检索(通过 BM25)和基于嵌入的检索。

除了 τ-Knowledge,最近的几项工作对客服代理在遵循业务策略、多步骤工作流和工具使用正确性方面进行了基准测试 [12, 13]。这些工作假设固定的编排风格(通常是一个单一的 LLMAgent 式循环,带有工具),并侧重于模型或检索器的比较。我们的工作旨在在一个通用基准和工具集下,探索通过声明式代理实现的代理技能以及通过命令式代理实现的程序化调用方法的好处。

我们的工作也与关于代理脚手架和编排的文献相关。ReAct 风格的推理-行动循环 [11] 交错进行自然语言思考与工具调用。基于图和 DFA 风格的框架(如 LangGraph [10])将代理的控制流暴露为显式的状态机或图,允许确定性转换。递归语言模型 [8] 进一步外部化控制,将提示视为环境变量,并允许 LLM 在分解的子问题上递归调用自身,在长上下文推理任务上展示了显著的性能提升 [9]。我们的命令式代理属于这一广泛的外部化确定性编排方法家族。

另一条并行的工作线研究在真实、杂乱知识库中的检索增强生成。τ-Knowledge 本身强调,即使是前沿模型也难以检索、解释和操作非结构化文档 [1],后续报告也强调在客服代理中,检索质量往往主导着模型选择 [1, 14]。此外,越来越多的人关注用以文件为中心的代理接口替代脆弱的工具注册表和多集群通信协议插件,在这些接口中,文件同时作为上下文、工具和技能 [7]。我们的结果加强了这些发现:黄金检索揭示了技能文件编排的优势,而有噪声的嵌入检索则显著降低了所有代理的性能,说明代理技能和高容量 LLM 的推理能力无法弥补根本性的错误证据。

与我们的声明式编排相关的是 Anthropic 的代理技能规范 [5],该规范提出了可复用的 SKILL.md 文件作为可组合、模型可读的程序化知识供代理使用。代理技能通过渐进式披露加载,元数据始终在上下文中,技能主体仅在需要时读取 [5, 6]。后续工作已将该思想推广到其他生态系统,认为技能应该是小型的、聚焦的 Markdown 文件,可以交换或组合以定制代理行为 [7, 6]。我们的声明式代理实现了这一范式,使用三个技能文件来编码对话结构、银行程序以及知识发现策略,并且据我们所知,首次在真实客服基准上系统比较了技能文件声明式代理和程序化状态机代理。

论文 [1] 的作者指出了在 LLM 代理上使用其基准时失败的主要原因:(1) *产品之间的复杂依赖关系*(约14.5%的失败)——跨文档进行多跳推理以找到最优产品组合;(2) *未能尊重隐式的子任务排序*(约5%)——例如,争议必须在信用额度提升之前解决;(3) *过度信任用户断言*(约4%)——未通过工具验证就根据用户声称的状态采取行动;(4) *搜索效率低下和不合理的假设*(约23%)——过早固定假设而非搜索知识库。这些失败原因驱动了我们的命令式代理和声明式代理策略。虽然失败类型1可能主要与 LLM 能力(以及模型参数量)相关,但我们旨在通过命令式代理中的代码,纠正类型2-3(即拓扑任务排序和验证门控)。类似地,我们在声明式代理的代理技能中提供了显式的知识库搜索指导,将声明式技能定位为AI代理的低成本能力增强。

τ-Knowledge 论文评估了五种前沿模型在不同检索配置下的表现。他们的主要发现是,该基准对当前 LLM 代理来说是困难的:最佳的非黄金配置是 GPT-5.2(高推理)结合终端使用,pass^1 得分为 25.52%,即使黄金文档已提供给代理,他们最好的得分是 Claude-4.5-Opus(高)的 39.69%。我们的表1复现了使用其无脚手架 LLM 代理 [1, 表2] 得出的主要 pass^1 结果。

表1:τ-Knowledge 基准使用无脚手架 LLM 代理的 pass^1 (%) 前沿模型基线,复现自 [1]。黄金表示向代理提供了最小文档集。括号内为每行相对于黄金设置的 Δ 值。Reas. 表示推理级别设置。

## 3 问题形式化

我们将客服交互建模为一个有限时域、两代理的分散式部分可观测马尔可夫决策过程 (Dec-POMDP) [4]。一个模拟(以下称为*任务*)是在一个从 τ-Knowledge 抽取的固定任务规格上对该过程的一次 Rollout。世界状态为 S = S_DB × S_conv,其中 S_DB 是银行数据库的关系状态(客户记录、账户、交易、处理中

相似文章