超越静态排行榜:LLM智能体评估的预测有效性

Hugging Face Daily Papers 论文

摘要

本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。

智能体基准测试发展迅速,但没有任何单一基准能够覆盖部署所暴露的超过四到五个维度。本文汇总了迄今为止对一个基于MCP的工业智能体基准进行的最大规模协调深度研究:十四项平行实现研究,涵盖新的资产类别(包括多模态视觉扩展)、替代编排方式、检索策略、推理模式、基础设施优化以及评估方法论探针。结合这些研究与先前的七个智能体基准,我们认为聚合得分排行榜系统性低估了已部署智能体的评估。由聚合得分得出的排名无法迁移到分布外场景;近期公开到隐藏的竞赛回顾提供了关于这种排名不稳定性的直接经验证据。我们提出根据预测有效性(样本内与样本外排名的相关性)而非样本内均值来对配置进行排序,并报告了一个十二层级的测量体系,该体系揭示了HELM及其智能体时代后续基准所压缩的部署相关维度。该立场通过三个可证伪的分布外准则及明确阈值来操作化;现有证据部分支持该立场,但尚不足以证实。最后,我们提出了一个预先注册的试点设计,并就下一代智能体基准应报告的内容给出了领域层面的愿景。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:30

论文页面 - 超越静态排行榜:LLM智能体评估的预测效度

来源:https://huggingface.co/papers/2606.19704 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

智能体基准中的总分排行榜未能捕捉部署相关的维度,并表现出排名不稳定性,因此需要基于预测效度和分布外标准的新评估框架。

智能体基准(https://huggingface.co/papers?q=Agent%20benchmarks)发展迅速,但没有任何单一基准能涵盖部署所暴露的维度中的五个以上。本文汇集了迄今为止对一个基于MCP的工业智能体基准进行的最大规模协调式深度研究:十四项并行实现研究,涵盖新的资产类别(包括多模态视觉扩展)、替代编排方式、检索策略、推理模式、基础设施优化以及评估方法探测。将这些研究与七个先前的智能体基准(https://huggingface.co/papers?q=agent%20benchmarks)整合后,我们认为总分排行榜(https://huggingface.co/papers?q=aggregate-score%20leaderboards)系统性地低估了已部署智能体的评估。从总分衍生的排名无法迁移到分布外设置(https://huggingface.co/papers?q=out-of-distribution%20settings);最近的公开到隐藏竞赛回顾为这种排名不稳定性(https://huggingface.co/papers?q=rank%20instability)提供了直接的经验证据。我们提议根据预测效度(https://huggingface.co/papers?q=predictive%20validity)对配置进行排序,即样本内排名与样本外排名之间的相关性,而不是样本内均值,并报告一套十二层测量仪器,该仪器揭示了HELM(https://huggingface.co/papers?q=HELM)及其智能体时代后继者(https://huggingface.co/papers?q=agent-era%20successors)所忽视的部署相关维度(https://huggingface.co/papers?q=deployment-relevant%20dimensions)。该立场通过三个具有明确阈值的可证伪分布外标准(https://huggingface.co/papers?q=falsifiable%20out-of-distribution%20criteria)进行操作化;现有证据部分支持该立场,但过于单薄无法确认。最后,我们提出一个预注册试点设计以及关于下一代智能体基准应报告内容的领域级愿景。

查看arXiv页面(https://arxiv.org/abs/2606.19704)查看PDF(https://arxiv.org/pdf/2606.19704)项目页面(https://github.com/IBM/AssetOpsBench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19704)

在您的智能体中获取此论文:

hf papers read 2606\.19704

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用arxiv.org/abs/2606.19704以在此页面建立链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2606.19704以在此页面建立链接。

引用此论文的Spaces0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2606.19704以在此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以在此页面建立链接。

相似文章

AgentAtlas:超越LLM代理的结果排行榜

arXiv cs.AI

本文介绍了AgentAtlas框架,该框架超越仅基于结果的LLM代理排行榜,通过提出六状态控制决策分类法和九类别轨迹故障分类法,更全面地评估代理行为。

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。

基于预测驱动推理的统计可靠LLM排名评估

arXiv cs.LG

本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。

信任悖论:计算机科学研究人员如何参与LLM排行榜

arXiv cs.CL

本文介绍了一项基于对计算机科学研究人员访谈的定性研究,揭示了一个实用怀疑主义的悖论:研究人员不信任LLM排行榜排名,却仍将其作为粗略的决策指南。研究发现,同行网络是模型选择的主要途径,基于竞技场(人工投票)的排行榜更受青睐,而成本透明是最被要求的功能。

评估盲点:大语言模型基准覆盖的体视学理论

arXiv cs.LG

本文运用体视学理论分析大语言模型基准,揭示当前排行榜仅测量3-5个独立维度,产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限,并提出一个用于高效基准选择的子模算法。