@ms_aifrontiers: 大多数LLM基准测试得分在运行之前即可预测。MS AI Frontiers团队新作：BenchPress。……

X AI KOLs Following 2026/06/25 18:11 论文

llm-benchmarks matrix-completion benchpress microsoft-ai-frontiers predictive-modeling benchmark-prediction model-evaluation

摘要

MS AI Frontiers团队推出了BenchPress，该方法利用矩阵补全技术，仅通过五个探针即可预测LLM基准测试得分，表明得分矩阵实际上为秩2。

大多数LLM基准测试得分在运行之前即可预测。 MS AI Frontiers团队新作：BenchPress。84个模型×133个基准测试的得分矩阵实际上为秩2，因此矩阵补全可以填补其余部分。5个探针即可恢复模型的完整轮廓。https://t.co/uxyGfzmrt9

查看原文

查看缓存全文

缓存时间: 2026/06/25 21:28

大多数大语言模型（LLM）的基准得分在运行之前就是可预测的。微软AI前沿团队的新成果：BenchPress。84个模型×133个基准的得分矩阵实际上秩为2，因此矩阵补全可以填充其余部分。只需5个探针就能恢复模型的完整轮廓。https://t.co/uxyGfzmrt9

相似文章

@ms_aifrontiers: 在每个检查点上运行所有基准测试既慢又昂贵。微软AI前沿团队的新工作提出了一个问题：你是否……

X AI KOLs Following

微软AI前沿团队推出了BenchPress，一种无需运行实际基准测试即可预测基准分数的方法，节省时间和计算资源。

并非每项评估都需要运行

arXiv cs.LG

这篇研究论文表明，前沿AI模型在133个基准测试上的得分近似于秩为2，即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress，一种在logit空间中进行矩阵补全的方法，仅需少数几个基准测试就能预测模型的完整得分表，从而显著降低评估成本。

PRL-Bench：评估大语言模型在尖端物理研究中能力的全面基准

Hugging Face Daily Papers

PRL-Bench是一个全面基准，用于评估大语言模型在尖端物理研究中的能力，基于从五个物理子领域精选的100篇《物理评论快报》论文构建。该基准揭示了当前大语言模型性能的重大差距（最佳得分低于50%），旨在测试端到端研究流程、复杂推理和自主探索。

LinAlg-Bench：揭示大语言模型数学推理中结构性失败模式的诊断性基准

arXiv cs.AI

介绍了LinAlg-Bench，这是一个诊断性基准，用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算，揭示了大语言模型的数学失败在结构上受到约束，并在4x4规模下从执行错误过渡到计算放弃。

CollabBench：通过主动参与与多样玩家基准测试并释放LLM协作能力

arXiv cs.CL

CollabBench是一个新的基准测试，用于评估和训练LLM智能体在合作游戏中的表现，具有多样玩家模拟和协作训练范式。实验表明，与基础模型相比，效率提高19.5%，情感性能提升24.4%。

提交意见反馈