Terminal Wrench：包含331个可奖励黑客环境及3,632条利用轨迹的数据集

Hugging Face Daily Papers 2026/04/19 00:00 论文

摘要

研究人员发布Terminal Wrench，一个涵盖331个可奖励黑客终端环境的数据集，包含3,632条横跨系统管理、机器学习与安全任务的利用轨迹。

我们发布Terminal Wrench，从流行的开源基准中精选出331个终端智能体评测环境，这些环境均被证实可被奖励黑客。数据集收录3,632条黑客轨迹与2,352条合法基线轨迹，覆盖三大前沿模型（Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4）。每条记录保留原始任务定义，并附带完整攻击轨迹，展示如何绕过验证器；同时包含未按预期完成任务的情况。任务范围涵盖系统管理、机器学习、软件工程与安全挑战；利用手段从简单输出伪造到栈帧自省、标准库补丁乃至rootkit式二进制劫持不等。关键在于，这些漏洞针对具体任务而非评测框架，因此更难修补。我们还开展可监测性研究：将黑客轨迹清洗或剥离推理链后，由LLM裁判打分，结果表明去除思维链后检测性能显著下降（AUC从0.97降至0.92）。数据集已公开，访问地址：https://github.com/few-sh/terminal-wrench。

查看原文

查看缓存全文

缓存时间: 2026/04/22 01:58

论文页面 - Terminal Wrench：包含 331 个可奖励破解环境与 3,632 条利用轨迹的数据集

来源：https://huggingface.co/papers/2604.17596

Terminal Wrench 是一个“终端基准”风格的数据集，收录了已表现出可被奖励破解（reward-hackable）迹象的环境，并附带导致破解与非破解奖励的智能体轨迹。每条记录保留原始任务定义，同时提供完整的攻击轨迹，展示如何通过验证器——包括那些未按预期解决任务的情况。任务涵盖系统管理、机器学习、软件工程与安全挑战；破解手段从简单的输出伪造、栈帧自省、stdlib 后门到 rootkit 式二进制劫持不等。值得注意的是，这些破解轨迹是针对具体任务而非针对基准/评估框架本身，因此更难修复。我们通过在提示末尾追加一段“破解诱导”文本诱发出这些破解行为。我们相信这只是所分析的 1,860 个任务中可破解任务的一个子集。方法上，先用多种模型与提示诱发并判定破解，生成 4 万余条试验；从中筛出 395 个可破解任务，再对这些任务运行更严格的“黑客循环”，最终得到本数据集。

我们还分享了一项简单的可监测性实验结果。首先，用“净化提示”对已被破解的轨迹进行清洗，移除明显的破解行为描述并替换常见关键词；再让另一模型重写智能体代码块，使其看起来不那么可疑。净化后的轨迹保存在 sanitized_trajectories//trial/agent/trajectory.json，sanitizer_model.txt 记录重写所用模型。工具调用保持不变。我们还做了更激进的剥离：删除所有智能体注释，仅保留工具调用，结果保存在 stripped_trajectories//trial/agent/trajectory.json。随后用裁判提示对原始破解及两种变体打分，观察可检测性是否下降。

部分基准仍在持续修复，例如我们了解到 Terminal Bench 2 仍在根据发现的问题修补任务。我们所用任务拉取自 2026-01-01 至 2026-03-30 的主源，因此其中一些任务此后可能已有变动。

为便于展示，◆ 表示奖励的严重利用，◇ 表示奖励的非严重破解，二者统一归为“破解”；~ 表示攻击者合法解决，° 表示无奖励尝试，这两类仍单独列为非破解结果。

331 个唯一任务
957 条任务/模型条目
6,289 条 v5 黑客轨迹
3,632 条破解轨迹（◆ + ◇）
1,216 条攻击者合法解决（~）
1,441 条无奖励尝试（°）
2,352 条来自成功预检的基线轨迹
3 个模型：claude-opus-4.6、gemini-3.1-pro、gpt-5.4

Terminal Wrench：包含331个可奖励黑客环境及3,632条利用轨迹的数据集

论文页面 - Terminal Wrench：包含 331 个可奖励破解环境与 3,632 条利用轨迹的数据集

相似文章

评估使用工具的LLM代理中的漏洞利用（4分钟阅读）

透过基准测试作弊的镜中镜

90年代末至2000年代初黑客工具的情感之旅

trimstray/the-book-of-secret-knowledge

追逐公开分数：编码智能体工作流中的用户压力与评估利用

提交意见反馈