标签
本文对 CODS 2025 AssetOpsBench 挑战赛进行了回顾性分析,考察了排行榜饱和、隐藏评估效果以及受奖励的设计模式。
ModelLens 是一个统一框架,通过利用公开排行榜数据为未见数据集推荐 AI 模型,从而避免了昂贵的直接评估需求。该框架构建了一个性能感知的潜在空间,以在多样化任务中对候选模型进行排序,并在大规模基准测试中超越了现有基线方法。