标签
作者描述了由于供应商创建的指标、自报参数和缺乏独立验证而对公开AI模型基准测试失去信心,并主张从真实生产流量中构建自定义评估集以进行更相关的模型比较。
本文将对配对二元样本量计算的方法应用于4位量化基准,提供了一个保守的最小可检测效应(MDE)界,帮助基准设计者在运行实验前确定可靠性。一项试点审计表明,在小子样本中观察到的许多方差是二项抽样噪声,而非真正的模型不可靠性。