predictive-validity

标签

Cards List
#predictive-validity

超越静态排行榜:LLM智能体评估的预测有效性

Hugging Face Daily Papers · 6天前 缓存

本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈