PACE:一种用于代理能力评估的代理框架

Hugging Face Daily Papers 论文

摘要

本文介绍了PACE,一种通过使用一小部分成本较低的非智能体评估实例来预测昂贵的LLM智能体基准得分的框架,以低于1%的成本实现了高精度。

在SWE-Bench和GAIA等基准上评估LLM智能体可能成本高昂、耗时且需要复杂的基础设施。单次评估可能花费数千美元并需要数天才能完成。相比之下,测试个体能力(例如推理、代码生成)的非智能体LLM基准运行快速且成本低廉。在本文中,我们研究了是否可以通过在一小部分精心挑选的原子评估实例上的表现来准确预测昂贵智能体基准上的性能。我们引入了PACE,一个通过从现有非智能体评估中选择实例来构建代理基准的框架,这些实例的汇总分数最能可靠地预测模型在智能体基准上的表现。给定一个涵盖原子能力的候选实例池,PACE拟合一个回归模型,将模型在紧凑的源实例子集上的得分映射到其在目标智能体基准上的得分。该子集本身是通过结合两种互补的实例选择策略来策划的:目标相关性的局部选择和全局信息性的全局选择。我们将PACE应用于本文中的4个目标智能体基准,从而产生了PACE-Bench,即我们在本文中评估的具体代理基准。在14个模型、4个智能体基准和19个非智能体基准上的实验表明,PACE-Bench在留一交叉验证(LOOCV)下预测智能体得分,平均绝对误差(MAE)低于4%,斯皮尔曼相关性高于0.80,成对模型排序准确率约为85%,而所有这些的成本不到完整智能体评估的1%。我们进一步分析了选定的代理实例,揭示了每个智能体基准独特要求的技能。PACE使从业者能够在模型开发、选择和路由过程中获得可靠的智能体性能估计,而无需承担完整智能体评估的开销。
查看原文
查看缓存全文

缓存时间: 2026/07/03 03:52

论文页面 - PACE:一种代理能力评估的代理指标

来源:https://huggingface.co/papers/2607.02032

作者:

,

,

,

,

,

,

,

,

,

摘要

PACE 是一个框架,它通过使用一小部分原子化评估实例来预测昂贵的代理型 LLM 基准测试性能,以极低的成本实现了高精度。

在 SWE-Bench (https://huggingface.co/papers?q=SWE-Bench) 和 GAIA (https://huggingface.co/papers?q=GAIA) 等基准测试上评估 LLM 智能体 (https://huggingface.co/papers?q=LLM%20agents) 可能是昂贵、耗时且需要复杂基础设施的。单次评估可能花费数千美元并需要数天才能完成。相比之下,测试单一能力(例如推理、代码生成)的非代理型 LLM 基准测试运行快速且成本低廉。在本文中,我们研究了是否可以通过在少量精心挑选的原子化评估实例上的表现来准确预测昂贵代理型基准测试 (https://huggingface.co/papers?q=agentic%20benchmarks) 的性能。我们引入了 PACE,这是一个通过从现有非代理型评估中选择实例来构建代理基准测试 (https://huggingface.co/papers?q=proxy%20benchmarks) 的框架,这些实例的聚合得分能够最可靠地预测模型在代理型基准测试 (https://huggingface.co/papers?q=agentic%20benchmarks) 上的表现。给定一个涵盖原子化能力的候选实例池,PACE 拟合了一个回归 (https://huggingface.co/papers?q=regression) 模型,该模型将模型在紧凑源实例子集上的得分映射到其在目标代理型基准测试上的得分。该子集本身是通过结合两种互补的实例选择策略 (https://huggingface.co/papers?q=instance-selection%20strategies) 来策划的:目标相关性局部选择 (https://huggingface.co/papers?q=target-relevance%20local%20selection) 和全局信息性全局选择 (https://huggingface.co/papers?q=globally%20informative%20global%20selection)。我们将 PACE 应用于本文中的 4 个目标代理型基准测试 (https://huggingface.co/papers?q=agentic%20benchmarks),从而产生了 PACE-Bench,这是我们在论文中评估的具体代理基准测试。跨 14 个模型、4 个代理型基准测试 (https://huggingface.co/papers?q=agentic%20benchmarks) 和 19 个非代理型基准测试 (https://huggingface.co/papers?q=non-agentic%20benchmarks) 的实验表明,PACE-Bench 以留一法交叉验证 (https://huggingface.co/papers?q=leave-one-out%20cross-validation) (LOOCV) 平均绝对误差 (https://huggingface.co/papers?q=mean%20absolute%20error) (MAE) 低于 4%、斯皮尔曼相关系数 (https://huggingface.co/papers?q=Spearman%20correlation) 高于 0.80、以及成对模型排序准确率 (https://huggingface.co/papers?q=pairwise%20model-ranking%20accuracy) 约为 85% 来预测代理型得分,而其成本远低于完整代理型评估的 1%。我们进一步分析了选定的代理实例,揭示了每个代理型基准测试独特要求的技能。PACE 使从业者能够在模型开发、选择和路由过程中获得对代理性能的可靠估计,而无需承受完整代理评估的开销。

查看 arXiv 页面 (https://arxiv.org/abs/2607.02032)查看 PDF (https://arxiv.org/pdf/2607.02032)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.02032)

在你的智能体中获取此论文:

hf papers read 2607\.02032

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2607.02032 以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2607.02032 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2607.02032 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

BiPACE: 面向LLM智能体的双模拟引导策略优化与动作反事实估计

arXiv cs.CL

BiPACE提出了一种即插即用的优势估计器,用于修复LLM智能体逐步分组强化学习中的状态-动作信用分配错配问题。该方法利用双模拟引导的状态聚类和动作反事实估计,在ALFWorld、WebShop和TextCraft基准上,配合Qwen2.5模型实现了显著的性能提升。

AgenticDataBench:面向数据代理的综合性基准测试

Hugging Face Daily Papers

介绍了AgenticDataBench,这是一个综合性基准测试,用于评估基于大语言模型的数据代理在不同领域中的表现,提供细粒度、基于技能的指标,包括实际B2B用例和合成任务。