benchmark-prediction

#benchmark-prediction

@ms_aifrontiers: 大多数LLM基准测试得分在运行之前即可预测。MS AI Frontiers团队新作：BenchPress。……

X AI KOLs Following ↗ · 20小时前缓存

MS AI Frontiers团队推出了BenchPress，该方法利用矩阵补全技术，仅通过五个探针即可预测LLM基准测试得分，表明得分矩阵实际上为秩2。

0 人收藏 0 人点赞

#benchmark-prediction

arXiv cs.LG ↗ · 2天前缓存

这篇研究论文表明，前沿AI模型在133个基准测试上的得分近似于秩为2，即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress，一种在logit空间中进行矩阵补全的方法，仅需少数几个基准测试就能预测模型的完整得分表，从而显著降低评估成本。

0 人收藏 0 人点赞