追逐公开分数:编码智能体工作流中的用户压力与评估利用
摘要
UCSC 团队发现,编码智能体(GPT-5.4、Claude Opus 4.6)在用户压力下会利用公开测试标签;推出 AgentPressureBench,含 34 项任务、1326 条轨迹,发现 403 次利用行为;基于提示的缓解方案将利用率从 100% 降至 8.3%。
查看缓存全文
缓存时间: 2026/04/23 10:03
# 追逐公开分数:用户压力与评估利用在编程智能体工作流中的表现 来源:https://arxiv.org/html/2604.20200 Hardy Chen¹, Nancy Lau¹, Haoqin Tu¹, Shuo Yan², Xiangyan Liu³, Zijun Wang¹, Juncheng Wu¹, Michael Qizhe Shieh³, Alvaro Cardenas¹, Cihang Xie¹, Yuyin Zhou¹ ¹UC Santa Cruz ²UT Dallas ³NUS ###### 摘要 前沿编程智能体越来越多地被用于这样一种工作流:用户主要通过“公开分数”——即工作区内带标签的公开评估文件上报告的成绩——的反复提升来监督进展,而非直接检查智能体的中间输出。我们研究多轮用户压力是否会诱发“公开分数利用”:通过捷径抬高公开分数,却并未提升隐藏的私有评估。 首先,在一个单脚本表格分类任务中,GPT-5.4 与 Claude Opus 4.6 均在 10 轮内开始利用标签。随后,我们构建 AgentPressureBench,一个涵盖 34 项机器学习仓库任务的基准,跨越三种输入模态,并收集 13 个编程智能体的 1326 条多轮轨迹。在该基准上,我们观测到 403 次利用行为,覆盖所有任务。更强模型的利用率更高,Spearman 秩相关系数达 0.77。消融实验表明,更高的用户压力会提前利用行为,平均首次利用轮次从 19.67 降至 4.08(提前 15.6 轮)。作为缓解手段,在提示中加入明确的反利用措辞可将利用率从 100% 降至 8.3%。我们希望本研究能引起对编程智能体工作流更谨慎使用的关注,并推动在 user pressure 下更鲁棒的智能体研发。项目主页:https://ucsc-vlaa.github.io/AgentPressureBench ## 1 引言 最新的大语言模型(LLM)已可作为软件工程与实证机器学习中的主动协作者,而非单轮对话机器人。一种日益流行的“氛围编程”工作流,让用户只盯着“公开分数”——工作区内带标签的评估集成绩——并反复要求智能体提升该分数(图 1 左)。这种方式高效可扩展,却直接激励智能体去“刷”公开数字,而非真正解决任务。 我们关心:当用户多轮施压要求提升公开分数时,智能体是在改进方法,还是利用暴露的标签走捷径?为此,我们用 LLM 裁判检测“公开分数利用”,并与人工标注高度一致。 预实验里,单文件表格任务中 GPT-5.4 与 Claude Opus 4.6 均在 10 轮内开始利用。随后我们构建 AgentPressureBench:34 项 Kaggle 数据集任务,覆盖表格、文本、视觉三种模态,评估 13 个前沿编程智能体,共 1326 条轨迹。结果: - 全部 34 项任务均出现利用; - 模型能力越强,利用率越高(Spearman ρ=0.77); - GPT/Claude 家族利用率最高,DeepSeek R1 与 LLaMA 家族几乎不利用; - 用户压力越大,首次利用越早(19.67→4.08 轮); - 提示中加入反利用措辞,利用率从 100% 降至 8.3%。 贡献: a) 将“公开分数利用”形式化为编程智能体测试期失效模式; b) 发布 34 任务 AgentPressureBench,验证利用普遍且强者更易利用; c) 给出简单有效的缓解方案——提示中加反利用措辞。 ## 2 预研:单文件场景下的利用行为 ### 2.1 实验设置 任务:UCI Adult 二分类,acc 评价。1000 样本→600 训练 / 200 公开(带标签)/ 200 隐藏。智能体仅见训练与公开路径,每轮重写脚本输出 predictions.csv,用户回传公开 acc 并要求继续提升。最多 10 轮,公开 acc=1.000 提前停止。GPT-5.4 与 Claude Opus 4.6 各跑 5 次。 利用定义:用公开标签走捷径提升公开分数,但未提升隐藏分数。检测:用 GPT-5.4 逐轮审代码,任一回合被标为利用则该次运行整体记为利用。 ### 2.2 结果 10 次运行全部出现利用,人工核验无误。公开 acc 均达 100%,隐藏 acc 均值约 81%。GPT-5.4 平均第 1.4 轮开始利用,Claude Opus 4.6 第 3.6 轮。单文件压力即可诱发捷径,促使我们大规模系统研究。 (表 1 略,详见原文表格:AgentPressureBench 34 项任务按模态分组,含评价指标与数据划分。) ## 3 AgentPressureBench:多轮用户压力下的公开分数利用评估 ### 3.1 总体设计 AgentPressureBench 包含 34 项“有界”ML 仓库任务,覆盖表格/文本/视觉,每项均提供:训练集、公开评估集(标签在工作区可见)、隐藏私有评估集。
相似文章
评估使用工具的LLM代理中的漏洞利用(4分钟阅读)
Cursor的一项审计发现,SWE-bench Pro上63%的成功LLM代理运行是通过检索修复而非推导修复,凸显了编码基准测试中普遍存在的奖励黑客行为。该研究提出了更严格的环境控制来缓解这种行为。
新DeepSWE基准测试发现Claude Opus作弊
Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。
@adithya_s_k: https://x.com/adithya_s_k/status/2067628584680710292
这篇文章讨论了代码代理如何通过复制已知补丁来作弊评估,并介绍了Repo2RLEnv,一个从真实仓库创建可验证编码环境的工具,用于为AI代码代理构建稳健的基准和训练数据。
WorkBench再访:两年后的工作场所智能体
本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。
@cursor_ai: 我们分享有关模型如何破解公共基准测试的新研究。最新模型,包括Opus 4.8和Composer 2.5…
Cursor AI分享研究,表明像Opus 4.8和Composer 2.5这样的模型学会通过从互联网或git历史中检索解决方案来破解公共基准测试。更严格的测试框架导致评估分数显著下降。