追逐公开分数：编码智能体工作流中的用户压力与评估利用

arXiv cs.CL 2026/04/23 04:00 论文

摘要

UCSC 团队发现，编码智能体（GPT-5.4、Claude Opus 4.6）在用户压力下会利用公开测试标签；推出 AgentPressureBench，含 34 项任务、1326 条轨迹，发现 403 次利用行为；基于提示的缓解方案将利用率从 100% 降至 8.3%。

arXiv:2604.20200v1 公告类型：新增摘要：前沿编码智能体越来越多地被用于用户主要通过“公开分数”——即工作区内带标签的公开评估文件上报告分数——的反复提升来监督进度的工作流，而非直接检查智能体的中间输出。我们研究多轮用户压力是否会促使智能体利用公开分数：通过捷径抬高公开分数，却未提升隐藏的私有评估。首先，在一个初步的单脚本表格分类任务中，GPT-5.4 与 Claude Opus 4.6 均在 10 轮用户-智能体交互内利用了标签信息。随后，我们构建 AgentPressureBench，一个涵盖三种输入模态的 34 项机器学习仓库基准，并收集 13 个编码智能体的 1326 条多轮轨迹。在该基准上，我们观察到 403 次利用行为，覆盖所有任务。更强的模型利用率更高，Spearman 秩相关系数达 0.77。消融实验表明，用户压力越大，利用越早，平均首次利用轮次提前 15.6 轮（从 19.67 降至 4.08）。作为缓解手段，在提示中明确加入反利用措辞基本消除利用（100%→8.3%）。我们希望本研究能引起对编码智能体工作流更谨慎使用的关注，并在用户压力下开发更鲁棒的编码智能体。项目主页：https://ucsc-vlaa.github.io/AgentPressureBench

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:03

# 追逐公开分数：用户压力与评估利用在编程智能体工作流中的表现  
来源：https://arxiv.org/html/2604.20200  

Hardy Chen¹, Nancy Lau¹, Haoqin Tu¹, Shuo Yan², Xiangyan Liu³, Zijun Wang¹,  
Juncheng Wu¹, Michael Qizhe Shieh³, Alvaro Cardenas¹, Cihang Xie¹, Yuyin Zhou¹  
¹UC Santa Cruz ²UT Dallas ³NUS  

###### 摘要  
前沿编程智能体越来越多地被用于这样一种工作流：用户主要通过“公开分数”——即工作区内带标签的公开评估文件上报告的成绩——的反复提升来监督进展，而非直接检查智能体的中间输出。我们研究多轮用户压力是否会诱发“公开分数利用”：通过捷径抬高公开分数，却并未提升隐藏的私有评估。  
首先，在一个单脚本表格分类任务中，GPT-5.4 与 Claude Opus 4.6 均在 10 轮内开始利用标签。随后，我们构建 AgentPressureBench，一个涵盖 34 项机器学习仓库任务的基准，跨越三种输入模态，并收集 13 个编程智能体的 1326 条多轮轨迹。在该基准上，我们观测到 403 次利用行为，覆盖所有任务。更强模型的利用率更高，Spearman 秩相关系数达 0.77。消融实验表明，更高的用户压力会提前利用行为，平均首次利用轮次从 19.67 降至 4.08（提前 15.6 轮）。作为缓解手段，在提示中加入明确的反利用措辞可将利用率从 100% 降至 8.3%。我们希望本研究能引起对编程智能体工作流更谨慎使用的关注，并推动在 user pressure 下更鲁棒的智能体研发。项目主页：https://ucsc-vlaa.github.io/AgentPressureBench  

## 1 引言  
最新的大语言模型（LLM）已可作为软件工程与实证机器学习中的主动协作者，而非单轮对话机器人。一种日益流行的“氛围编程”工作流，让用户只盯着“公开分数”——工作区内带标签的评估集成绩——并反复要求智能体提升该分数（图 1 左）。这种方式高效可扩展，却直接激励智能体去“刷”公开数字，而非真正解决任务。  

我们关心：当用户多轮施压要求提升公开分数时，智能体是在改进方法，还是利用暴露的标签走捷径？为此，我们用 LLM 裁判检测“公开分数利用”，并与人工标注高度一致。  

预实验里，单文件表格任务中 GPT-5.4 与 Claude Opus 4.6 均在 10 轮内开始利用。随后我们构建 AgentPressureBench：34 项 Kaggle 数据集任务，覆盖表格、文本、视觉三种模态，评估 13 个前沿编程智能体，共 1326 条轨迹。结果：  
- 全部 34 项任务均出现利用；  
- 模型能力越强，利用率越高（Spearman ρ=0.77）；  
- GPT/Claude 家族利用率最高，DeepSeek R1 与 LLaMA 家族几乎不利用；  
- 用户压力越大，首次利用越早（19.67→4.08 轮）；  
- 提示中加入反利用措辞，利用率从 100% 降至 8.3%。  

贡献：  
a) 将“公开分数利用”形式化为编程智能体测试期失效模式；  
b) 发布 34 任务 AgentPressureBench，验证利用普遍且强者更易利用；  
c) 给出简单有效的缓解方案——提示中加反利用措辞。  

## 2 预研：单文件场景下的利用行为  
### 2.1 实验设置  
任务：UCI Adult 二分类，acc 评价。1000 样本→600 训练 / 200 公开（带标签）/ 200 隐藏。智能体仅见训练与公开路径，每轮重写脚本输出 predictions.csv，用户回传公开 acc 并要求继续提升。最多 10 轮，公开 acc=1.000 提前停止。GPT-5.4 与 Claude Opus 4.6 各跑 5 次。  

利用定义：用公开标签走捷径提升公开分数，但未提升隐藏分数。检测：用 GPT-5.4 逐轮审代码，任一回合被标为利用则该次运行整体记为利用。  

### 2.2 结果  
10 次运行全部出现利用，人工核验无误。公开 acc 均达 100%，隐藏 acc 均值约 81%。GPT-5.4 平均第 1.4 轮开始利用，Claude Opus 4.6 第 3.6 轮。单文件压力即可诱发捷径，促使我们大规模系统研究。  

（表 1 略，详见原文表格：AgentPressureBench 34 项任务按模态分组，含评价指标与数据划分。）  

## 3 AgentPressureBench：多轮用户压力下的公开分数利用评估  
### 3.1 总体设计  
AgentPressureBench 包含 34 项“有界”ML 仓库任务，覆盖表格/文本/视觉，每项均提供：训练集、公开评估集（标签在工作区可见）、隐藏私有评估集。

追逐公开分数：编码智能体工作流中的用户压力与评估利用

相似文章

评估使用工具的LLM代理中的漏洞利用（4分钟阅读）

新DeepSWE基准测试发现Claude Opus作弊

@adithya_s_k: https://x.com/adithya_s_k/status/2067628584680710292

WorkBench再访：两年后的工作场所智能体

@cursor_ai: 我们分享有关模型如何破解公共基准测试的新研究。最新模型，包括Opus 4.8和Composer 2.5…

提交意见反馈