超越静态排行榜：LLM智能体评估的预测有效性

Hugging Face Daily Papers 2026/06/18 00:00 论文

agent-evaluation leaderboards predictive-validity out-of-distribution benchmarks llm-agents research

摘要

本文认为，针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度，并且表现出排名不稳定性。文章提出根据预测有效性（即样本内排名与样本外排名之间的相关性）来对配置进行排序，并引入了一个十二层级的测量体系以及可证伪的分布外准则。

智能体基准测试发展迅速，但没有任何单一基准能够覆盖部署所暴露的超过四到五个维度。本文汇总了迄今为止对一个基于MCP的工业智能体基准进行的最大规模协调深度研究：十四项平行实现研究，涵盖新的资产类别（包括多模态视觉扩展）、替代编排方式、检索策略、推理模式、基础设施优化以及评估方法论探针。结合这些研究与先前的七个智能体基准，我们认为聚合得分排行榜系统性低估了已部署智能体的评估。由聚合得分得出的排名无法迁移到分布外场景；近期公开到隐藏的竞赛回顾提供了关于这种排名不稳定性的直接经验证据。我们提出根据预测有效性（样本内与样本外排名的相关性）而非样本内均值来对配置进行排序，并报告了一个十二层级的测量体系，该体系揭示了HELM及其智能体时代后续基准所压缩的部署相关维度。该立场通过三个可证伪的分布外准则及明确阈值来操作化；现有证据部分支持该立场，但尚不足以证实。最后，我们提出了一个预先注册的试点设计，并就下一代智能体基准应报告的内容给出了领域层面的愿景。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:30

论文页面 - 超越静态排行榜：LLM智能体评估的预测效度

来源：https://huggingface.co/papers/2606.19704 作者：

摘要

智能体基准中的总分排行榜未能捕捉部署相关的维度，并表现出排名不稳定性，因此需要基于预测效度和分布外标准的新评估框架。

智能体基准（https://huggingface.co/papers?q=Agent%20benchmarks）发展迅速，但没有任何单一基准能涵盖部署所暴露的维度中的五个以上。本文汇集了迄今为止对一个基于MCP的工业智能体基准进行的最大规模协调式深度研究：十四项并行实现研究，涵盖新的资产类别（包括多模态视觉扩展）、替代编排方式、检索策略、推理模式、基础设施优化以及评估方法探测。将这些研究与七个先前的智能体基准（https://huggingface.co/papers?q=agent%20benchmarks）整合后，我们认为总分排行榜（https://huggingface.co/papers?q=aggregate-score%20leaderboards）系统性地低估了已部署智能体的评估。从总分衍生的排名无法迁移到分布外设置（https://huggingface.co/papers?q=out-of-distribution%20settings）；最近的公开到隐藏竞赛回顾为这种排名不稳定性（https://huggingface.co/papers?q=rank%20instability）提供了直接的经验证据。我们提议根据预测效度（https://huggingface.co/papers?q=predictive%20validity）对配置进行排序，即样本内排名与样本外排名之间的相关性，而不是样本内均值，并报告一套十二层测量仪器，该仪器揭示了HELM（https://huggingface.co/papers?q=HELM）及其智能体时代后继者（https://huggingface.co/papers?q=agent-era%20successors）所忽视的部署相关维度（https://huggingface.co/papers?q=deployment-relevant%20dimensions）。该立场通过三个具有明确阈值的可证伪分布外标准（https://huggingface.co/papers?q=falsifiable%20out-of-distribution%20criteria）进行操作化；现有证据部分支持该立场，但过于单薄无法确认。最后，我们提出一个预注册试点设计以及关于下一代智能体基准应报告内容的领域级愿景。

查看arXiv页面（https://arxiv.org/abs/2606.19704）查看PDF（https://arxiv.org/pdf/2606.19704）项目页面（https://github.com/IBM/AssetOpsBench）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.19704）

在您的智能体中获取此论文：

hf papers read 2606\.19704

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用arxiv.org/abs/2606.19704以在此页面建立链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2606.19704以在此页面建立链接。

引用此论文的Spaces0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2606.19704以在此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以在此页面建立链接。

超越静态排行榜：LLM智能体评估的预测有效性

论文页面 - 超越静态排行榜：LLM智能体评估的预测效度

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

AgentAtlas：超越LLM代理的结果排行榜

面向可靠LLM判断的边际自适应置信度排序

基于预测驱动推理的统计可靠LLM排名评估

信任悖论：计算机科学研究人员如何参与LLM排行榜

评估盲点：大语言模型基准覆盖的体视学理论

提交意见反馈