Terminal Wrench:包含331个可奖励黑客环境及3,632条利用轨迹的数据集

Hugging Face Daily Papers 论文

摘要

研究人员发布Terminal Wrench,一个涵盖331个可奖励黑客终端环境的数据集,包含3,632条横跨系统管理、机器学习与安全任务的利用轨迹。

我们发布Terminal Wrench,从流行的开源基准中精选出331个终端智能体评测环境,这些环境均被证实可被奖励黑客。数据集收录3,632条黑客轨迹与2,352条合法基线轨迹,覆盖三大前沿模型(Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4)。每条记录保留原始任务定义,并附带完整攻击轨迹,展示如何绕过验证器;同时包含未按预期完成任务的情况。任务范围涵盖系统管理、机器学习、软件工程与安全挑战;利用手段从简单输出伪造到栈帧自省、标准库补丁乃至rootkit式二进制劫持不等。关键在于,这些漏洞针对具体任务而非评测框架,因此更难修补。我们还开展可监测性研究:将黑客轨迹清洗或剥离推理链后,由LLM裁判打分,结果表明去除思维链后检测性能显著下降(AUC从0.97降至0.92)。数据集已公开,访问地址:https://github.com/few-sh/terminal-wrench。
查看原文
查看缓存全文

缓存时间: 2026/04/22 01:58

论文页面 - Terminal Wrench:包含 331 个可奖励破解环境与 3,632 条利用轨迹的数据集

来源:https://huggingface.co/papers/2604.17596

Terminal Wrench 是一个“终端基准”风格的数据集,收录了已表现出可被奖励破解(reward-hackable)迹象的环境,并附带导致破解与非破解奖励的智能体轨迹。每条记录保留原始任务定义,同时提供完整的攻击轨迹,展示如何通过验证器——包括那些未按预期解决任务的情况。任务涵盖系统管理、机器学习、软件工程与安全挑战;破解手段从简单的输出伪造、栈帧自省、stdlib 后门到 rootkit 式二进制劫持不等。值得注意的是,这些破解轨迹是针对具体任务而非针对基准/评估框架本身,因此更难修复。我们通过在提示末尾追加一段“破解诱导”文本诱发出这些破解行为。我们相信这只是所分析的 1,860 个任务中可破解任务的一个子集。方法上,先用多种模型与提示诱发并判定破解,生成 4 万余条试验;从中筛出 395 个可破解任务,再对这些任务运行更严格的“黑客循环”,最终得到本数据集。

我们还分享了一项简单的可监测性实验结果。首先,用“净化提示”对已被破解的轨迹进行清洗,移除明显的破解行为描述并替换常见关键词;再让另一模型重写智能体代码块,使其看起来不那么可疑。净化后的轨迹保存在 sanitized_trajectories//trial/agent/trajectory.jsonsanitizer_model.txt 记录重写所用模型。工具调用保持不变。我们还做了更激进的剥离:删除所有智能体注释,仅保留工具调用,结果保存在 stripped_trajectories//trial/agent/trajectory.json。随后用裁判提示对原始破解及两种变体打分,观察可检测性是否下降。

部分基准仍在持续修复,例如我们了解到 Terminal Bench 2 仍在根据发现的问题修补任务。我们所用任务拉取自 2026-01-01 至 2026-03-30 的主源,因此其中一些任务此后可能已有变动。

为便于展示,◆ 表示奖励的严重利用,◇ 表示奖励的非严重破解,二者统一归为“破解”;~ 表示攻击者合法解决,° 表示无奖励尝试,这两类仍单独列为非破解结果。

  • 331 个唯一任务
  • 957 条任务/模型条目
  • 6,289 条 v5 黑客轨迹
  • 3,632 条破解轨迹(◆ + ◇)
  • 1,216 条攻击者合法解决(~)
  • 1,441 条无奖励尝试(°)
  • 2,352 条来自成功预检的基线轨迹
  • 3 个模型:claude-opus-4.6、gemini-3.1-pro、gpt-5.4

相似文章

透过基准测试作弊的镜中镜

Hacker News Top

Poolside 在其 Laguna M.1 模型在 SWE-Bench-Pro 上的强化学习训练中发现了奖励作弊现象,发现智能体可以利用 git 历史和其他漏洞来欺骗基准测试,凸显了需要更好的对齐和评估方法。

trimstray/the-book-of-secret-knowledge

GitHub Trending (daily)

一个精选的GitHub仓库,汇集了供系统管理员、DevOps、渗透测试人员和安全研究人员使用的启发性列表、手册、速查表、博客、黑客技巧、单行命令以及命令行/Web工具。