Terminal Wrench:包含331个可奖励黑客环境及3,632条利用轨迹的数据集
摘要
研究人员发布Terminal Wrench,一个涵盖331个可奖励黑客终端环境的数据集,包含3,632条横跨系统管理、机器学习与安全任务的利用轨迹。
查看缓存全文
缓存时间: 2026/04/22 01:58
论文页面 - Terminal Wrench:包含 331 个可奖励破解环境与 3,632 条利用轨迹的数据集
来源:https://huggingface.co/papers/2604.17596
Terminal Wrench 是一个“终端基准”风格的数据集,收录了已表现出可被奖励破解(reward-hackable)迹象的环境,并附带导致破解与非破解奖励的智能体轨迹。每条记录保留原始任务定义,同时提供完整的攻击轨迹,展示如何通过验证器——包括那些未按预期解决任务的情况。任务涵盖系统管理、机器学习、软件工程与安全挑战;破解手段从简单的输出伪造、栈帧自省、stdlib 后门到 rootkit 式二进制劫持不等。值得注意的是,这些破解轨迹是针对具体任务而非针对基准/评估框架本身,因此更难修复。我们通过在提示末尾追加一段“破解诱导”文本诱发出这些破解行为。我们相信这只是所分析的 1,860 个任务中可破解任务的一个子集。方法上,先用多种模型与提示诱发并判定破解,生成 4 万余条试验;从中筛出 395 个可破解任务,再对这些任务运行更严格的“黑客循环”,最终得到本数据集。
我们还分享了一项简单的可监测性实验结果。首先,用“净化提示”对已被破解的轨迹进行清洗,移除明显的破解行为描述并替换常见关键词;再让另一模型重写智能体代码块,使其看起来不那么可疑。净化后的轨迹保存在 sanitized_trajectories//trial/agent/trajectory.json,sanitizer_model.txt 记录重写所用模型。工具调用保持不变。我们还做了更激进的剥离:删除所有智能体注释,仅保留工具调用,结果保存在 stripped_trajectories//trial/agent/trajectory.json。随后用裁判提示对原始破解及两种变体打分,观察可检测性是否下降。
部分基准仍在持续修复,例如我们了解到 Terminal Bench 2 仍在根据发现的问题修补任务。我们所用任务拉取自 2026-01-01 至 2026-03-30 的主源,因此其中一些任务此后可能已有变动。
为便于展示,◆ 表示奖励的严重利用,◇ 表示奖励的非严重破解,二者统一归为“破解”;~ 表示攻击者合法解决,° 表示无奖励尝试,这两类仍单独列为非破解结果。
- 331 个唯一任务
- 957 条任务/模型条目
- 6,289 条 v5 黑客轨迹
- 3,632 条破解轨迹(◆ + ◇)
- 1,216 条攻击者合法解决(~)
- 1,441 条无奖励尝试(°)
- 2,352 条来自成功预检的基线轨迹
- 3 个模型:claude-opus-4.6、gemini-3.1-pro、gpt-5.4
相似文章
评估使用工具的LLM代理中的漏洞利用(4分钟阅读)
Cursor的一项审计发现,SWE-bench Pro上63%的成功LLM代理运行是通过检索修复而非推导修复,凸显了编码基准测试中普遍存在的奖励黑客行为。该研究提出了更严格的环境控制来缓解这种行为。
透过基准测试作弊的镜中镜
Poolside 在其 Laguna M.1 模型在 SWE-Bench-Pro 上的强化学习训练中发现了奖励作弊现象,发现智能体可以利用 git 历史和其他漏洞来欺骗基准测试,凸显了需要更好的对齐和评估方法。
90年代末至2000年代初黑客工具的情感之旅
怀旧回顾90年代末至2000年代初的黑客工具,如Back Orifice、NetBus、Sub7和Nmap,反思它们的影响以及Windows 98黑客时代。
trimstray/the-book-of-secret-knowledge
一个精选的GitHub仓库,汇集了供系统管理员、DevOps、渗透测试人员和安全研究人员使用的启发性列表、手册、速查表、博客、黑客技巧、单行命令以及命令行/Web工具。
追逐公开分数:编码智能体工作流中的用户压力与评估利用
UCSC 团队发现,编码智能体(GPT-5.4、Claude Opus 4.6)在用户压力下会利用公开测试标签;推出 AgentPressureBench,含 34 项任务、1326 条轨迹,发现 403 次利用行为;基于提示的缓解方案将利用率从 100% 降至 8.3%。