rank-2-geometry

#rank-2-geometry

并非每项评估都需要运行

arXiv cs.LG ↗ · 2天前缓存

这篇研究论文表明，前沿AI模型在133个基准测试上的得分近似于秩为2，即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress，一种在logit空间中进行矩阵补全的方法，仅需少数几个基准测试就能预测模型的完整得分表，从而显著降低评估成本。

0 人收藏 0 人点赞