SynAE:一种用于评估工具调用智能体评测中合成数据质量的框架

arXiv cs.CL 论文

摘要

SynAE 是一个评估框架,用于衡量工具调用智能体评测中使用的合成数据的质量,从有效性、保真度和多样性等多个维度进行评估。它通过提供指导合成数据生成的指标,应对真实数据不足或敏感带来的挑战。

arXiv:2605.22564v1 公告类型:新 摘要:如今,工具调用智能体通常基于静态的执行轨迹数据集进行评测或测试,这些数据集包括输入指令、智能体响应以及相关的工具调用。然而,内部生产数据集往往不足以用于测试,或者无法使用;例如,它们可能包含敏感或专有数据,或者过于稀疏而无法支持全面测试(尤其是在部署前)。在这种情况下,从业者越来越多地使用合成数据来替代或扩充真实数据集以进行评测。一个关键挑战是如何量化这些合成数据集与真实数据之间的关系。我们提出 SynAE,一个评估框架,用于衡量多轮工具调用智能体的合成基准在多大程度上复制和增强了真实数据轨迹的特征。SynAE 通过四个指标类别评估合成数据的有效性、保真度和多样性:(i) 任务指令与中间响应,(ii) 工具调用,(iii) 最终输出,以及 (iv) 下游评估。我们使用最新的智能体基准对 SynAE 进行评估,并通过真实且可控的生成方案测试常见的合成数据失效模式。SynAE 能够检测数据有效性、保真度和多样性的细粒度变化,并表明没有单一指标足以全面表征合成数据质量,从而推动了智能体测试中合成数据的多维度评估。SynAE 的演示可在 https://synae-2026-synae-demo.static.hf.space/index.html 获取,代码可在 https://github.com/wsqwsq/SynAE 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:49

# SynAE:衡量工具调用代理评估中合成数据质量的框架

来源:https://arxiv.org/html/2605.22564

Aadyaa Maddi  
卡内基梅隆大学  
amaddi@andrew\.cmu\.edu

Zinan Lin  
微软研究院  
zinanlin@microsoft\.com

Giulia Fanti  
卡内基梅隆大学  
gfanti@andrew\.cmu\.edu

###### 摘要

如今,工具调用代理通常通过静态的*执行轨迹*数据集进行评估或测试,这些数据集包括输入指令、代理响应以及相关的工具调用。然而,内部生产数据集常常不足以用于测试或无法直接使用;例如,它们可能包含敏感或专有数据,或者过于稀疏而无法支持全面的测试(尤其是在部署前)。在这些情况下,从业者越来越多地使用合成数据集来替代或扩充真实数据集以进行评估。一个关键挑战是如何量化这些合成数据集与真实数据之间的关系。我们引入了SynAE,这是一个评估框架,用于衡量用于多轮工具调用代理的合成基准在多大程度上能够复制和增强真实数据轨迹的特征。SynAE通过四个指标类别评估合成数据的有效性、保真度和多样性:(i) 任务指令和中间响应,(ii) 工具调用,(iii) 最终输出,以及 (iv) 下游评估。我们使用最新的代理基准对SynAE进行了评估,并通过现实且可控的生成方案测试了常见的合成数据失效模式。SynAE检测到了数据有效性、保真度和多样性方面的细微变化,并表明没有单一指标足以完全描述合成数据的质量,这激发了在代理测试中对合成数据进行多轴评估的需求。SynAE的演示可在https://synae-2026-synae-demo.static.hf.space/index.html获取,代码在https://github.com/wsqwsq/SynAE。

## 1 引言

代理评估与测试是生产级代理工作流部署前流程中一个新兴但关键的部分[26 (https://arxiv.org/html/2605.22564#bib.bib26),2 (https://arxiv.org/html/2605.22564#bib.bib2)]。如今,工具调用代理的评估通常(但并非总是)在静态的*基准数据集*111这些评估数据集也常被称为*基准*;本文中两个术语可互换使用。上运行,该数据集由代理交互生成的轨迹组成;这些通常包括用户输入、工具调用、与代理的中间交互以及最终输出[44 (https://arxiv.org/html/2605.22564#bib.bib44),22 (https://arxiv.org/html/2605.22564#bib.bib22)]。此类数据集通常通过从真实用户与环境交互中收集,和/或通过合成与动态环境脚本化交互来生成。虽然设计合适的代理评估本身就是一个活跃的研究领域[12 (https://arxiv.org/html/2605.22564#bib.bib12),1 (https://arxiv.org/html/2605.22564#bib.bib1),48 (https://arxiv.org/html/2605.22564#bib.bib48)],但常见的评估指标衡量的是代理是否选择了正确的工具并产生了期望的最终输出[44 (https://arxiv.org/html/2605.22564#bib.bib44),22 (https://arxiv.org/html/2605.22564#bib.bib22),2 (https://arxiv.org/html/2605.22564#bib.bib2)]。

在许多实际情况下,现有的基准数据集无法直接使用或不足以用于代理评估,原因包括它们包含受隐私限制约束的敏感用户数据(例如,电子邮件、旅行详情)[31 (https://arxiv.org/html/2605.22564#bib.bib31),3 (https://arxiv.org/html/2605.22564#bib.bib3)],或者它们规模太小而无法进行全面测试[26 (https://arxiv.org/html/2605.22564#bib.bib26)]。因此,从业者越来越多地在评估流程中使用*合成数据集*来替代或扩充真实执行轨迹(图̃1(a) (https://arxiv.org/html/2605.22564#S1.F1.sf1))[28 (https://arxiv.org/html/2605.22564#bib.bib28),32 (https://arxiv.org/html/2605.22564#bib.bib32),9 (https://arxiv.org/html/2605.22564#bib.bib9)]。合成数据可以通过直接合成轨迹或通过向交互式环境合成输入来生成。

见标题

(a) 如今,代理通常根据模拟真实代理轨迹数据集的合成数据集进行评估,例如出于隐私或扩充的原因。然而,这些合成数据集是否代表真实数据集往往不明确。我们的评估框架SynAE衡量真实与合成执行轨迹数据集之间的语义和结构*相似性*,以及合成数据的*有效性*和*多样性*。

见标题

(b) SynAE评估流程接收真实和合成数据集(任务完成轨迹),以及可选的指标配置,这些配置可以指定数据特定的先验知识和一个或多个LLM代理。LLM代理仅用于比较真实和合成输入数据集之间的下游性能。该框架从三个维度评估合成数据:有效性、保真度和多样性。

图1:SynAE框架评估用于代理评估的合成数据的质量。

尽管合成数据集越来越多地用于代理评估,但典型工作流程缺乏针对真实基线数据的系统性质量检查。事实上,当前关于使用合成数据测试代理的文献几乎没有提供评估此类合成数据质量的定量方法,使操作员几乎无法洞察评估中的差距。在这项工作中,我们开发了一个全面的评估框架SynAE,以评估合成轨迹在多大程度上*复制*和*增强*了真实数据轨迹的特征,包括任务指令和响应,以及相关的参考工具调用和输出。如图̃1(b) (https://arxiv.org/html/2605.22564#S1.F1.sf2)所示,SynAE接收一个真实基线数据集、一个合成数据集以及可选的指标配置,这些配置可以指定数据特定的先验知识和一个或多个LLM代理;输入到SynAE的代理不必与正在评估的代理相同——每个输入代理纯粹用于比较真实和合成输入数据集之间的下游性能。SynAE从三个方面评估合成数据:(1) 有效性,(2) 保真度,(3) 多样性。对于*有效性*,我们评估合成工具调用和输出是否成功满足了给定的指令,默认使用LLM作为评判者,或在使用可用时使用基于规则的检查器。我们通过评估真实和合成数据之间的相似性来衡量*保真度*;具体来说,我们对真实和合成数据计算指标并评估其相似性。我们使用基于熵的指标来量化合成数据集的*多样性*,这些指标适用于数据集的各种表示。对于每个属性,SynAE计算一套指标来评估(子集)(1) 任务指令和响应,(2) 工具调用,(3) 最终输出,以及 (4) 下游评估。

我们通过三个最新的代理基准来展示SynAE的效用,这些基准在图̃1(a) (https://arxiv.org/html/2605.22564#S1.F1.sf1)中扮演“真实数据集”的角色:T1[4 (https://arxiv.org/html/2605.22564#bib.bib4)],BFCL[27 (https://arxiv.org/html/2605.22564#bib.bib27)],和ACP[13 (https://arxiv.org/html/2605.22564#bib.bib13)]。然后,我们使用NVIDIA NeMo[23 (https://arxiv.org/html/2605.22564#bib.bib23)](一个行业标准的合成数据工具)以及自定义的合成数据生成方法构建合成数据集,这些方法旨在模拟常见的现实世界陷阱,例如数据保真度下降和多样性受限。我们的实验表明,SynAE捕捉到了合成任务完成轨迹在有效性、保真度和多样性方面的细微变化。它们进一步表明,没有单一指标足以完全描述合成数据的质量,这凸显了对SynAE的需求。总的来说,我们将SynAE视为代理工作流的一个即插即用组件,允许操作员自动评估合成基准数据集的质量。

### 1.1 相关工作

我们简要概述相关工作,并在App.̃A (https://arxiv.org/html/2605.22564#A1)中提供详细讨论。几项先前的工作使用诸如任务难度、真实感以及模型排名是否得以保留等因素来评估LLM的合成基准[7 (https://arxiv.org/html/2605.22564#bib.bib7),18 (https://arxiv.org/html/2605.22564#bib.bib18),38 (https://arxiv.org/html/2605.22564#bib.bib38),19 (https://arxiv.org/html/2605.22564#bib.bib19)]。然而,这些工作主要关注标准NLP设置,而不是代理基准,在代理基准中,由于涉及多步决策、与工具交互以及需要将失败归因于代理管道的不同部分,评估更为困难。近年来,针对工具调用代理的合成基准评估主要集中在单轮设置或指令级质量上[30 (https://arxiv.org/html/2605.22564#bib.bib30),9 (https://arxiv.org/html/2605.22564#bib.bib9),48 (https://arxiv.org/html/2605.22564#bib.bib48),1 (https://arxiv.org/html/2605.22564#bib.bib1),26 (https://arxiv.org/html/2605.22564#bib.bib26)],而没有系统性地评估相关的参考工具调用、输出或多步依赖关系。多轮工具调用代理通常使用基于状态的检查器进行端到端任务成功评估[42 (https://arxiv.org/html/2605.22564#bib.bib42),16 (https://arxiv.org/html/2605.22564#bib.bib16),46 (https://arxiv.org/html/2605.22564#bib.bib46),41 (https://arxiv.org/html/2605.22564#bib.bib41),37 (https://arxiv.org/html/2605.22564#bib.bib37),11 (https://arxiv.org/html/2605.22564#bib.bib11)]、基于响应的标准[27 (https://arxiv.org/html/2605.22564#bib.bib27),14 (https://arxiv.org/html/2605.22564#bib.bib14),45 (https://arxiv.org/html/2605.22564#bib.bib45)]或LLM作为评判者[28 (https://arxiv.org/html/2605.22564#bib.bib28),25 (https://arxiv.org/html/2605.22564#bib.bib25),39 (https://arxiv.org/html/2605.22564#bib.bib39),17 (https://arxiv.org/html/2605.22564#bib.bib17)]。这些方法评估给定基准上的代理性能,而我们的目标是评估基准本身,通过在指令和响应、工具调用、最终输出和下游评估方面提供有效性、保真度和多样性的定量指标。

## 2 SynAE框架

SynAE框架评估合成代理轨迹在多大程度上复制和增强了真实数据集的特征。它量化合成数据的*有效性*、*保真度*和*多样性*。

见标题

图2:来自T1[4 (https://arxiv.org/html/2605.22564#bib.bib4)]基准数据集的代理轨迹,附有每个组件的标注。

##### 符号和设置
考虑一个数据集D=\{Di\}i=1m\\mathcal\{D\}=\\left\\\{D\_\{i\}\\right\\\}\_\{i=1\}^\{m\},包含mm个样本(或代理轨迹)。图̃2 (https://arxiv.org/html/2605.22564#S2.F2)展示了一个样本轨迹DiD\_\{i\},它由一组指令和响应RiR\_\{i\}、工具调用FiF\_\{i\}以及文本输出OiO\_\{i\}组成。RiR\_\{i\}是一个序列,包含多个指令和响应Ri=\(ri,1,ri,2,...,ri,li\)R\_\{i\}=\(r\_\{i,1\},r\_\{i,2\},\\ldots,r\_\{i,\\ell\_\{i\}\)\),其中li\\ell\_\{i\}表示指令和响应的数量。工具调用序列FiF\_\{i\}由工具调用Fi=\(fi,1\(φi,1\),fi,2\(φi,2\),...,fi,qi\(φi,qi\)\)F\_\{i\}=\\left\(f\_\{i,1\}\\left\(\\varphi\_\{i,1\}\\right\),f\_\{i,2\}\\left\(\\varphi\_\{i,2\}\\right\),\\ldots,f\_\{i,q\_\{i\}\}\\left\(\\varphi\_\{i,q\_\{i\}\}\\right\)\\right\)组成,其中fi,j∈Ff\_\{i,j\}\\in\\mathcal\{F\}\{\}对应一个可执行函数,F\\mathcal\{F\}\{\}表示所有可能工具的集合,φi,j\\varphi\_\{i,j\}表示fi,jf\_\{i,j\}的输入,qiq\_\{i\}是轨迹中工具调用的总数。注意,指令和响应、工具调用和输出可以在时间上交错;我们稍微滥用符号,用DiD\_\{i\}指代按时间排序的事件序列,并用Ri,Fi,OiR\_\{i\},F\_\{i\},O\_\{i\}分别指代仅包含指令和响应、工具调用和最终输出的相应过滤子序列。

##### 输入总结
SynAE接收如下输入:(1) 真实数据集D\\mathcal\{D\};(2) 合成数据集D′\\mathcal\{D\}^\{\\prime\};(3) 可选的指标配置,这些配置可以指定数据特定的先验知识和代理A1,...,AhA\_\{1\},\\ldots,A\_\{h\}(详情如下)。两个数据集都包含指令和响应、参考工具调用和输出;SynAE也支持缺少响应、工具调用或输出的数据集。

### 2.1 评估指标

SynAE将评估指标分为三大支柱:有效性(第̃2.1.1节 (https://arxiv.org/html/2605.22564#S2.SS1.SSS1))、保真度(第̃2.1.2节 (https://arxiv.org/html/2605.22564#S2.SS1.SSS2))和多样性(第̃2.1.3节 (https://arxiv.org/html/2605.22564#S2.SS1.SSS3))。每个支柱包含多个子指标,这些子指标需要不同程度的真实数据先验知识,并评估合成数据集的不同方面:(1) 任务指令和响应,(2) 工具调用,(3) 输出,以及 (4) 下游任务。

#### 2.1.1 有效性指标

有效性评估很重要,因为合成数据可能看起来逼真,但如果工具调用或最终输出未能完成任务,则可能是不可用的。在实践中,无效样本可能源于幻觉工具名称或参数,或者看似合理但未满足指令的输出。虽然有效性可能因数据集而异,但我们使用了一个宽泛的定义:提供的工具调用或输出是否完成了任务指令,作为一种基本的自一致性检查。默认情况下,我们使用LLM作为评判者来评估每个样本Di∈DD\_\{i\}\\in\\mathcal\{D\}的有效性,其提示词和与人类标注的一致性见App.̃B (https://arxiv.org/html/2605.22564#A2);如果可用,用户可以定义基于规则的检查器。我们将整体的*有效性比率 (VR)*报告为有效工具调用序列和输出的比例。

#### 2.1.2 保真度指标

我们设计保真度指标来衡量合成数据与真实数据之间的相似性,这在合成数据作为真实数据的直接替代(例如,由于隐私限制)时特别有用。保真度是SynAE中唯一使用真实数据来计算其相关指标的属性,涵盖 (1) 任务指令和响应,(2) 工具调用,(3) 输出,以及 (4) 下游任务。

##### 1. 任务指令和响应的保真度指标
任务指令和响应具有交替结构,每个指令后跟一个响应。因此,我们借鉴了StructBench[34 (https://arxiv.org/html/2605.22564#bib.bib34)](一个用于评估结构化合成数据的框架)的思想,并使用以下指标。对于捕捉数据中结构关系的保真度指标,我们使用**关键节点依赖**和**属性匹配**。

**关键节点依赖 (KND)** 通过计算每个指令与其对应响应之间的嵌入余弦相似度,以及每个响应与后续指令之间的嵌入余弦相似度,来衡量样本各部分之间的语义依赖关系。然后,我们通过测量其相似度得分分布之间的分布距离来比较真实和合成数据集。

**属性匹配 (AM)** 通过计算Wasserstein-2距离(用于数值属性)和总变差(TV

相似文章

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。