CODS 2025 AssetOpsBench 挑战赛的结果与回顾分析

Hugging Face Daily Papers 论文

摘要

本文对 CODS 2025 AssetOpsBench 挑战赛进行了回顾性分析,考察了排行榜饱和、隐藏评估效果以及受奖励的设计模式。

竞赛回顾若阐明了排行榜衡量了什么、隐藏评估如何改变结论以及哪些设计模式受到了奖励,则十分有用。我们重新审视了CODS 2025挑战赛,这是一项基于工业多智能体编排的隐私感知Codabench竞赛。我们结合了最终排名表、包含300次提交的服务器日志、149支队伍注册数据、最佳提交导出文件、组织者获奖者报告、配套系统论文以及经过验证的规划赛道源代码树。五项结果尤为突出。首先,公共规划排行榜在72.73%处饱和,更丰富的提示并未提升该峰值。其次,隐藏评估改变了局面:公共分数与私有分数在规划赛道中度相关(r{=}0.69),但在执行赛道呈负相关(r{=}{-}0.13),多个公共执行得分为45.45%的系统在隐藏集上达到了63.64%。第三,该术语在官方综合得分中数值上几乎不起作用——在0-1尺度上与0-100百分比分数结合后,每赛道最多贡献0.05分,而重新缩放将互换前两名队伍。第四,竞赛在操作上基于账户,但实质上基于团队:149支注册队伍缩减至24支拥有非零公共分数的队伍,其中11支获得完整排名,而52.3%的去重注册列出了多个用户名。第五,成功的执行方法主要改进了防护栏——包括响应选择、污染清理、回退和上下文控制——而非新颖的智能体架构。这些发现识别了评估所奖励的行为,并推动了尺度感知的综合评分、技能级别诊断以及版本化工件发布。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:17

论文页面 - CODS 2025 AssetOpsBench 挑战赛结果与回顾分析

来源:https://huggingface.co/papers/2605.08518

摘要

竞赛回顾在解释排行榜测量了什么、隐藏评估如何改变结论以及哪些设计模式获得奖励时非常有用。我们重新审视了 CODS 2025 挑战赛,这是一项基于 Codabench 的隐私感知工业多智能体编排竞赛。我们综合了最终排名表、包含 300 次提交的服务器日志、149 支团队注册信息、最佳提交导出文件、组织者获胜者报告、配套系统论文以及经过验证的规划赛道源代码树。五项结果尤为突出。第一,公开规划排行榜在 72.73% 处饱和,更丰富的提示词并未提升该峰值。第二,隐藏评估改变了故事:公开分数与私有分数在规划赛道中呈中等相关(r=0.69),但在执行赛道中呈负相关(r=-0.13),多个公开执行系统在 45.45% 水平上达到隐藏集的 63.64%。第三,该术语在官方综合评分中数值上几乎无影响——在 0–1 分与 0–100 百分比分数叠加的尺度上,每条赛道最多贡献 0.05 分,而重新缩放将交换前两名团队。第四,该竞赛操作上基于账户,但实质上基于团队:149 支注册团队缩减为拥有非零公开分数的 24 支和完整排名的 11 支,而去重后的注册中有 52.3% 列出了多个用户名。第五,成功的执行方法主要改进了防护栏——响应选择、污染清理、回退和上下文控制——而非新型智能体架构。这些发现明确了评估所奖励的行为,并推动了规模感知综合评分、技能水平诊断和版本化工件发布。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08518)查看 PDF (https://arxiv.org/pdf/2605.08518)项目页面 (https://www.codabench.org/competitions/10206/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08518)

在您的智能体中获取此论文:

hf papers read 2605.08518

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.08518 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.08518 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.08518 以从此页面链接。

包含此论文的集合1

相似文章

CODS 2025 AssetOpsBench 挑战赛结果及回顾性分析

arXiv cs.AI

本文对 CODS 2025 AssetOpsBench 挑战赛进行了回顾性分析,评估了多智能体 AI 系统在工业任务中的表现。文章揭示了公开排行榜与隐藏排行榜之间的差异,并为未来的智能体基准测试提供了诊断建议。

OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试

arXiv cs.AI

本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。