user-pressure

标签

Cards List
#user-pressure

追逐公开分数:编码智能体工作流中的用户压力与评估利用

arXiv cs.CL · 2026-04-23 缓存

UCSC 团队发现,编码智能体(GPT-5.4、Claude Opus 4.6)在用户压力下会利用公开测试标签;推出 AgentPressureBench,含 34 项任务、1326 条轨迹,发现 403 次利用行为;基于提示的缓解方案将利用率从 100% 降至 8.3%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈