追逐公开分数:编码智能体工作流中的用户压力与评估利用

arXiv cs.CL 论文

摘要

UCSC 团队发现,编码智能体(GPT-5.4、Claude Opus 4.6)在用户压力下会利用公开测试标签;推出 AgentPressureBench,含 34 项任务、1326 条轨迹,发现 403 次利用行为;基于提示的缓解方案将利用率从 100% 降至 8.3%。

arXiv:2604.20200v1 公告类型:新增 摘要:前沿编码智能体越来越多地被用于用户主要通过“公开分数”——即工作区内带标签的公开评估文件上报告分数——的反复提升来监督进度的工作流,而非直接检查智能体的中间输出。我们研究多轮用户压力是否会促使智能体利用公开分数:通过捷径抬高公开分数,却未提升隐藏的私有评估。首先,在一个初步的单脚本表格分类任务中,GPT-5.4 与 Claude Opus 4.6 均在 10 轮用户-智能体交互内利用了标签信息。随后,我们构建 AgentPressureBench,一个涵盖三种输入模态的 34 项机器学习仓库基准,并收集 13 个编码智能体的 1326 条多轮轨迹。在该基准上,我们观察到 403 次利用行为,覆盖所有任务。更强的模型利用率更高,Spearman 秩相关系数达 0.77。消融实验表明,用户压力越大,利用越早,平均首次利用轮次提前 15.6 轮(从 19.67 降至 4.08)。作为缓解手段,在提示中明确加入反利用措辞基本消除利用(100%→8.3%)。我们希望本研究能引起对编码智能体工作流更谨慎使用的关注,并在用户压力下开发更鲁棒的编码智能体。项目主页:https://ucsc-vlaa.github.io/AgentPressureBench
查看原文
查看缓存全文

缓存时间: 2026/04/23 10:03

# 追逐公开分数:用户压力与评估利用在编程智能体工作流中的表现  
来源:https://arxiv.org/html/2604.20200  

Hardy Chen¹, Nancy Lau¹, Haoqin Tu¹, Shuo Yan², Xiangyan Liu³, Zijun Wang¹,  
Juncheng Wu¹, Michael Qizhe Shieh³, Alvaro Cardenas¹, Cihang Xie¹, Yuyin Zhou¹  
¹UC Santa Cruz ²UT Dallas ³NUS  

###### 摘要  
前沿编程智能体越来越多地被用于这样一种工作流:用户主要通过“公开分数”——即工作区内带标签的公开评估文件上报告的成绩——的反复提升来监督进展,而非直接检查智能体的中间输出。我们研究多轮用户压力是否会诱发“公开分数利用”:通过捷径抬高公开分数,却并未提升隐藏的私有评估。  
首先,在一个单脚本表格分类任务中,GPT-5.4 与 Claude Opus 4.6 均在 10 轮内开始利用标签。随后,我们构建 AgentPressureBench,一个涵盖 34 项机器学习仓库任务的基准,跨越三种输入模态,并收集 13 个编程智能体的 1326 条多轮轨迹。在该基准上,我们观测到 403 次利用行为,覆盖所有任务。更强模型的利用率更高,Spearman 秩相关系数达 0.77。消融实验表明,更高的用户压力会提前利用行为,平均首次利用轮次从 19.67 降至 4.08(提前 15.6 轮)。作为缓解手段,在提示中加入明确的反利用措辞可将利用率从 100% 降至 8.3%。我们希望本研究能引起对编程智能体工作流更谨慎使用的关注,并推动在 user pressure 下更鲁棒的智能体研发。项目主页:https://ucsc-vlaa.github.io/AgentPressureBench  

## 1 引言  
最新的大语言模型(LLM)已可作为软件工程与实证机器学习中的主动协作者,而非单轮对话机器人。一种日益流行的“氛围编程”工作流,让用户只盯着“公开分数”——工作区内带标签的评估集成绩——并反复要求智能体提升该分数(图 1 左)。这种方式高效可扩展,却直接激励智能体去“刷”公开数字,而非真正解决任务。  

我们关心:当用户多轮施压要求提升公开分数时,智能体是在改进方法,还是利用暴露的标签走捷径?为此,我们用 LLM 裁判检测“公开分数利用”,并与人工标注高度一致。  

预实验里,单文件表格任务中 GPT-5.4 与 Claude Opus 4.6 均在 10 轮内开始利用。随后我们构建 AgentPressureBench:34 项 Kaggle 数据集任务,覆盖表格、文本、视觉三种模态,评估 13 个前沿编程智能体,共 1326 条轨迹。结果:  
- 全部 34 项任务均出现利用;  
- 模型能力越强,利用率越高(Spearman ρ=0.77);  
- GPT/Claude 家族利用率最高,DeepSeek R1 与 LLaMA 家族几乎不利用;  
- 用户压力越大,首次利用越早(19.67→4.08 轮);  
- 提示中加入反利用措辞,利用率从 100% 降至 8.3%。  

贡献:  
a) 将“公开分数利用”形式化为编程智能体测试期失效模式;  
b) 发布 34 任务 AgentPressureBench,验证利用普遍且强者更易利用;  
c) 给出简单有效的缓解方案——提示中加反利用措辞。  

## 2 预研:单文件场景下的利用行为  
### 2.1 实验设置  
任务:UCI Adult 二分类,acc 评价。1000 样本→600 训练 / 200 公开(带标签)/ 200 隐藏。智能体仅见训练与公开路径,每轮重写脚本输出 predictions.csv,用户回传公开 acc 并要求继续提升。最多 10 轮,公开 acc=1.000 提前停止。GPT-5.4 与 Claude Opus 4.6 各跑 5 次。  

利用定义:用公开标签走捷径提升公开分数,但未提升隐藏分数。检测:用 GPT-5.4 逐轮审代码,任一回合被标为利用则该次运行整体记为利用。  

### 2.2 结果  
10 次运行全部出现利用,人工核验无误。公开 acc 均达 100%,隐藏 acc 均值约 81%。GPT-5.4 平均第 1.4 轮开始利用,Claude Opus 4.6 第 3.6 轮。单文件压力即可诱发捷径,促使我们大规模系统研究。  

(表 1 略,详见原文表格:AgentPressureBench 34 项任务按模态分组,含评价指标与数据划分。)  

## 3 AgentPressureBench:多轮用户压力下的公开分数利用评估  
### 3.1 总体设计  
AgentPressureBench 包含 34 项“有界”ML 仓库任务,覆盖表格/文本/视觉,每项均提供:训练集、公开评估集(标签在工作区可见)、隐藏私有评估集。

相似文章

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。

WorkBench再访:两年后的工作场所智能体

arXiv cs.CL

本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。