标签
本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。