CODS 2025 AssetOpsBench 挑战赛的结果与回顾分析
摘要
本文对 CODS 2025 AssetOpsBench 挑战赛进行了回顾性分析,考察了排行榜饱和、隐藏评估效果以及受奖励的设计模式。
查看缓存全文
缓存时间: 2026/05/14 04:17
论文页面 - CODS 2025 AssetOpsBench 挑战赛结果与回顾分析
来源:https://huggingface.co/papers/2605.08518
摘要
竞赛回顾在解释排行榜测量了什么、隐藏评估如何改变结论以及哪些设计模式获得奖励时非常有用。我们重新审视了 CODS 2025 挑战赛,这是一项基于 Codabench 的隐私感知工业多智能体编排竞赛。我们综合了最终排名表、包含 300 次提交的服务器日志、149 支团队注册信息、最佳提交导出文件、组织者获胜者报告、配套系统论文以及经过验证的规划赛道源代码树。五项结果尤为突出。第一,公开规划排行榜在 72.73% 处饱和,更丰富的提示词并未提升该峰值。第二,隐藏评估改变了故事:公开分数与私有分数在规划赛道中呈中等相关(r=0.69),但在执行赛道中呈负相关(r=-0.13),多个公开执行系统在 45.45% 水平上达到隐藏集的 63.64%。第三,该术语在官方综合评分中数值上几乎无影响——在 0–1 分与 0–100 百分比分数叠加的尺度上,每条赛道最多贡献 0.05 分,而重新缩放将交换前两名团队。第四,该竞赛操作上基于账户,但实质上基于团队:149 支注册团队缩减为拥有非零公开分数的 24 支和完整排名的 11 支,而去重后的注册中有 52.3% 列出了多个用户名。第五,成功的执行方法主要改进了防护栏——响应选择、污染清理、回退和上下文控制——而非新型智能体架构。这些发现明确了评估所奖励的行为,并推动了规模感知综合评分、技能水平诊断和版本化工件发布。
查看 arXiv 页面 (https://arxiv.org/abs/2605.08518)查看 PDF (https://arxiv.org/pdf/2605.08518)项目页面 (https://www.codabench.org/competitions/10206/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08518)
在您的智能体中获取此论文:
hf papers read 2605.08518
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.08518 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.08518 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.08518 以从此页面链接。
包含此论文的集合1
相似文章
CODS 2025 AssetOpsBench 挑战赛结果及回顾性分析
本文对 CODS 2025 AssetOpsBench 挑战赛进行了回顾性分析,评估了多智能体 AI 系统在工业任务中的表现。文章揭示了公开排行榜与隐藏排行榜之间的差异,并为未来的智能体基准测试提供了诊断建议。
EvoCode-Bench:在多轮迭代交互中评估编码代理
介绍了EvoCode-Bench,这是一个包含26个有状态编码任务、共227轮评估的基准,用于评估多轮迭代交互中的编码代理,结果表明单轮性能高估了多轮能力22-40分。
OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试
本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。
追逐公开分数:编码智能体工作流中的用户压力与评估利用
UCSC 团队发现,编码智能体(GPT-5.4、Claude Opus 4.6)在用户压力下会利用公开测试标签;推出 AgentPressureBench,含 34 项任务、1326 条轨迹,发现 403 次利用行为;基于提示的缓解方案将利用率从 100% 降至 8.3%。
前沿模型的成长阵痛:当排行榜不再能区分时,接下来该测量什么
本文引入了种群耦合趋势和h场诊断法,分析前沿AI模型在编码与推理能力之间的关系,发现各能力相互协作,但不同实验室侧重点不同。本文提供了测量指南,并预测了基准测试趋于饱和的趋势。