CODS 2025 AssetOpsBench 挑战赛的结果与回顾分析

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

本文对 CODS 2025 AssetOpsBench 挑战赛进行了回顾性分析，考察了排行榜饱和、隐藏评估效果以及受奖励的设计模式。

竞赛回顾若阐明了排行榜衡量了什么、隐藏评估如何改变结论以及哪些设计模式受到了奖励，则十分有用。我们重新审视了CODS 2025挑战赛，这是一项基于工业多智能体编排的隐私感知Codabench竞赛。我们结合了最终排名表、包含300次提交的服务器日志、149支队伍注册数据、最佳提交导出文件、组织者获奖者报告、配套系统论文以及经过验证的规划赛道源代码树。五项结果尤为突出。首先，公共规划排行榜在72.73%处饱和，更丰富的提示并未提升该峰值。其次，隐藏评估改变了局面：公共分数与私有分数在规划赛道中度相关（r{=}0.69），但在执行赛道呈负相关（r{=}{-}0.13），多个公共执行得分为45.45%的系统在隐藏集上达到了63.64%。第三，该术语在官方综合得分中数值上几乎不起作用——在0-1尺度上与0-100百分比分数结合后，每赛道最多贡献0.05分，而重新缩放将互换前两名队伍。第四，竞赛在操作上基于账户，但实质上基于团队：149支注册队伍缩减至24支拥有非零公共分数的队伍，其中11支获得完整排名，而52.3%的去重注册列出了多个用户名。第五，成功的执行方法主要改进了防护栏——包括响应选择、污染清理、回退和上下文控制——而非新颖的智能体架构。这些发现识别了评估所奖励的行为，并推动了尺度感知的综合评分、技能级别诊断以及版本化工件发布。

查看原文

查看缓存全文

缓存时间: 2026/05/14 04:17

论文页面 - CODS 2025 AssetOpsBench 挑战赛结果与回顾分析

来源：https://huggingface.co/papers/2605.08518

摘要

竞赛回顾在解释排行榜测量了什么、隐藏评估如何改变结论以及哪些设计模式获得奖励时非常有用。我们重新审视了 CODS 2025 挑战赛，这是一项基于 Codabench 的隐私感知工业多智能体编排竞赛。我们综合了最终排名表、包含 300 次提交的服务器日志、149 支团队注册信息、最佳提交导出文件、组织者获胜者报告、配套系统论文以及经过验证的规划赛道源代码树。五项结果尤为突出。第一，公开规划排行榜在 72.73% 处饱和，更丰富的提示词并未提升该峰值。第二，隐藏评估改变了故事：公开分数与私有分数在规划赛道中呈中等相关（r=0.69），但在执行赛道中呈负相关（r=-0.13），多个公开执行系统在 45.45% 水平上达到隐藏集的 63.64%。第三，该术语在官方综合评分中数值上几乎无影响——在 0–1 分与 0–100 百分比分数叠加的尺度上，每条赛道最多贡献 0.05 分，而重新缩放将交换前两名团队。第四，该竞赛操作上基于账户，但实质上基于团队：149 支注册团队缩减为拥有非零公开分数的 24 支和完整排名的 11 支，而去重后的注册中有 52.3% 列出了多个用户名。第五，成功的执行方法主要改进了防护栏——响应选择、污染清理、回退和上下文控制——而非新型智能体架构。这些发现明确了评估所奖励的行为，并推动了规模感知综合评分、技能水平诊断和版本化工件发布。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08518)查看 PDF (https://arxiv.org/pdf/2605.08518)项目页面 (https://www.codabench.org/competitions/10206/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08518)

在您的智能体中获取此论文：

hf papers read 2605.08518

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.08518 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.08518 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.08518 以从此页面链接。

CODS 2025 AssetOpsBench 挑战赛的结果与回顾分析

论文页面 - CODS 2025 AssetOpsBench 挑战赛结果与回顾分析

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的集合1

相似文章

CODS 2025 AssetOpsBench 挑战赛结果及回顾性分析

EvoCode-Bench：在多轮迭代交互中评估编码代理

OpenClawBench：真实世界代理执行轨迹中过程侧异常的基准测试

追逐公开分数：编码智能体工作流中的用户压力与评估利用

前沿模型的成长阵痛：当排行榜不再能区分时，接下来该测量什么

提交意见反馈