leaderboard-analysis

#leaderboard-analysis

CODS 2025 AssetOpsBench 挑战赛的结果与回顾分析

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

本文对 CODS 2025 AssetOpsBench 挑战赛进行了回顾性分析，考察了排行榜饱和、隐藏评估效果以及受奖励的设计模式。

0 人收藏 0 人点赞

#leaderboard-analysis

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

ModelLens 是一个统一框架，通过利用公开排行榜数据为未见数据集推荐 AI 模型，从而避免了昂贵的直接评估需求。该框架构建了一个性能感知的潜在空间，以在多样化任务中对候选模型进行排序，并在大规模基准测试中超越了现有基线方法。

0 人收藏 0 人点赞