predictive-validity

#predictive-validity

超越静态排行榜：LLM智能体评估的预测有效性

Hugging Face Daily Papers ↗ · 6天前缓存

本文认为，针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度，并且表现出排名不稳定性。文章提出根据预测有效性（即样本内排名与样本外排名之间的相关性）来对配置进行排序，并引入了一个十二层级的测量体系以及可证伪的分布外准则。

0 人收藏 0 人点赞