oracle-routing

#oracle-routing

能力前沿：基准测试遗漏了82%的模型性能

arXiv cs.AI ↗ · 4天前缓存

本文提出了能力前沿（Capability Frontier），这是一个针对模型的帕累托前沿，用于纠正单模型和单次运行评估中的偏差，表明标准基准测试遗漏了高达82%的模型性能，并且集体LLM能力被严重低估。

0 人收藏 0 人点赞