PACE:一种用于代理能力评估的代理框架
摘要
本文介绍了PACE,一种通过使用一小部分成本较低的非智能体评估实例来预测昂贵的LLM智能体基准得分的框架,以低于1%的成本实现了高精度。
查看缓存全文
缓存时间: 2026/07/03 03:52
论文页面 - PACE:一种代理能力评估的代理指标
来源:https://huggingface.co/papers/2607.02032
作者:
,
,
,
,
,
,
,
,
,
摘要
PACE 是一个框架,它通过使用一小部分原子化评估实例来预测昂贵的代理型 LLM 基准测试性能,以极低的成本实现了高精度。
在 SWE-Bench (https://huggingface.co/papers?q=SWE-Bench) 和 GAIA (https://huggingface.co/papers?q=GAIA) 等基准测试上评估 LLM 智能体 (https://huggingface.co/papers?q=LLM%20agents) 可能是昂贵、耗时且需要复杂基础设施的。单次评估可能花费数千美元并需要数天才能完成。相比之下,测试单一能力(例如推理、代码生成)的非代理型 LLM 基准测试运行快速且成本低廉。在本文中,我们研究了是否可以通过在少量精心挑选的原子化评估实例上的表现来准确预测昂贵代理型基准测试 (https://huggingface.co/papers?q=agentic%20benchmarks) 的性能。我们引入了 PACE,这是一个通过从现有非代理型评估中选择实例来构建代理基准测试 (https://huggingface.co/papers?q=proxy%20benchmarks) 的框架,这些实例的聚合得分能够最可靠地预测模型在代理型基准测试 (https://huggingface.co/papers?q=agentic%20benchmarks) 上的表现。给定一个涵盖原子化能力的候选实例池,PACE 拟合了一个回归 (https://huggingface.co/papers?q=regression) 模型,该模型将模型在紧凑源实例子集上的得分映射到其在目标代理型基准测试上的得分。该子集本身是通过结合两种互补的实例选择策略 (https://huggingface.co/papers?q=instance-selection%20strategies) 来策划的:目标相关性局部选择 (https://huggingface.co/papers?q=target-relevance%20local%20selection) 和全局信息性全局选择 (https://huggingface.co/papers?q=globally%20informative%20global%20selection)。我们将 PACE 应用于本文中的 4 个目标代理型基准测试 (https://huggingface.co/papers?q=agentic%20benchmarks),从而产生了 PACE-Bench,这是我们在论文中评估的具体代理基准测试。跨 14 个模型、4 个代理型基准测试 (https://huggingface.co/papers?q=agentic%20benchmarks) 和 19 个非代理型基准测试 (https://huggingface.co/papers?q=non-agentic%20benchmarks) 的实验表明,PACE-Bench 以留一法交叉验证 (https://huggingface.co/papers?q=leave-one-out%20cross-validation) (LOOCV) 平均绝对误差 (https://huggingface.co/papers?q=mean%20absolute%20error) (MAE) 低于 4%、斯皮尔曼相关系数 (https://huggingface.co/papers?q=Spearman%20correlation) 高于 0.80、以及成对模型排序准确率 (https://huggingface.co/papers?q=pairwise%20model-ranking%20accuracy) 约为 85% 来预测代理型得分,而其成本远低于完整代理型评估的 1%。我们进一步分析了选定的代理实例,揭示了每个代理型基准测试独特要求的技能。PACE 使从业者能够在模型开发、选择和路由过程中获得对代理性能的可靠估计,而无需承受完整代理评估的开销。
查看 arXiv 页面 (https://arxiv.org/abs/2607.02032)查看 PDF (https://arxiv.org/pdf/2607.02032)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.02032)
在你的智能体中获取此论文:
hf papers read 2607\.02032
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2607.02032 以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2607.02032 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2607.02032 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
EPC:一种用于测量LLM代理系统中评估者偏好动态的标准化协议
本文介绍了EPC,一种用于测量LLM代理系统中评估者偏好耦合的标准化协议,包括参考快照和版本控制约定,以解决可重复性和测量衰减问题。
BiPACE: 面向LLM智能体的双模拟引导策略优化与动作反事实估计
BiPACE提出了一种即插即用的优势估计器,用于修复LLM智能体逐步分组强化学习中的状态-动作信用分配错配问题。该方法利用双模拟引导的状态聚类和动作反事实估计,在ALFWorld、WebShop和TextCraft基准上,配合Qwen2.5模型实现了显著的性能提升。
AgenticDataBench:面向数据代理的综合性基准测试
介绍了AgenticDataBench,这是一个综合性基准测试,用于评估基于大语言模型的数据代理在不同领域中的表现,提供细粒度、基于技能的指标,包括实际B2B用例和合成任务。
MCP-Persona:通过环境模拟对LLM智能体在实际个人应用中的基准测试
MCP-Persona是一种基准测试,用于评估LLM智能体在与个人账户和本地数据库交互的个性化工具上的表现。实验表明,最先进的智能体在个性化工具使用方面面临显著挑战。
Agent 评估:详细指南(53 分钟阅读)
关于评估基于 LLM 的 Agent 系统的全面指南,涵盖基本概念、评估框架以及来自近期基准测试的案例研究。