通过对抗性黑客-修复循环强化代理基准测试

Hugging Face Daily Papers 2026/06/08 03:00 论文

adversarial agent-benchmarks verifiers reward-hacking llm-agents security benchmark-hardening

摘要

研究人员提出了一种利用LLM代理的对抗性黑客-修复循环，自动修补代理基准测试中脆弱的验证器，在KernelBench上将攻击成功率从62%降至0%，并证明较弱的防御者可以压制更强的攻击者。

代理基准测试使用结果验证器对提交进行评分，这些验证器通常是手工编写且脆弱的，容易受到奖励破解的攻击。我们审计了五个终端代理基准测试中的1,968个任务，发现其中323个（16%）仅凭任务描述即可被前沿模型破解。这破坏了排行榜排名和强化学习训练信号，但标准的应对方式仍然是手动且被动的。我们引入黑客-修复循环，一种无需逐任务手动修补即可构建抗利用验证器的方法。该循环交替使用三个LLM代理：黑客试图在不解决问题的情况下通过验证器，修复者修补验证器以拒绝每个发现的利用，求解者确认修补后的验证器仍然接受合法解决方案。循环迭代进行：每次修补都会重塑验证器奖励的内容，从而揭示下一个利用。我们还进一步增加了对验证器的访问权限，并允许修补在不同任务间迁移，以扩展循环发现的利用范围。在KernelBench上，该循环将公开报告的利用的保留语料库上的攻击成功率从62%降至0%。我们还发现，循环中的较弱代理可以防御更强的黑客：Gemini 3 Flash的循环将更强的Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率从76%和61%降至0%，并将Gemini 3.1 Pro在Terminal Bench上77个任务中的攻击成功率从39%降至17%。我们发布了Terminal Wrench（323个可破解环境，3,632条黑客轨迹）作为当前攻击面的快照，以及我们修补后的验证器、循环发现的利用和我们的实现，作为未来工作的基础。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:40

论文页面 - 通过对抗性黑客-修复器循环强化Agent基准测试

来源：https://huggingface.co/papers/2606.08960

摘要

研究人员发现Agent基准验证系统中普遍存在漏洞，并开发了一种基于LLM智能体的自动化迭代流程，用于创建既抗攻击又能保持合法任务性能的稳健验证器。

Agent基准测试（https://huggingface.co/papers?q=Agent%20benchmarks）通常通过手工编写且脆弱的结果验证器（https://huggingface.co/papers?q=outcome%20verifiers）对提交进行评分，这使得它们容易受到奖励作弊（https://huggingface.co/papers?q=reward%20hacking）的攻击。我们对五个终端Agent基准测试（https://huggingface.co/papers?q=terminal-agent%20benchmarks）中的1,968个任务进行了审计，发现其中323个（16%）可以被前沿模型仅凭任务描述就成功攻击。这会同时破坏排行榜排名和强化学习训练信号，然而标准的应对方式仍然是手动且被动的。我们引入了黑客-修复器循环（https://huggingface.co/papers?q=hacker-fixer%20loop），这是一种无需对每个任务进行手动修补即可构建抗攻击验证器（https://huggingface.co/papers?q=exploit-resistant%20verifiers）的方法。该循环交替使用三个LLM智能体（https://huggingface.co/papers?q=LLM%20agents）：黑客尝试在不解决任务的情况下通过验证器，修复器修补验证器以拒绝对每个已发现漏洞的攻击，而求解器则确认修补后的验证器仍然接受合法的解决方案。循环不断迭代：每次修补都会重塑验证器的奖励机制，从而暴露下一个漏洞。我们进一步增加了验证器访问权限，并允许修补跨任务迁移，以扩大循环发现的漏洞范围。在KernelBench（https://huggingface.co/papers?q=KernelBench）上，该循环将公开报告的漏洞在保留语料上的攻击成功率（https://huggingface.co/papers?q=attack%20success%20rate）从62%降至0%。我们还发现，循环中较弱的智能体能够防御更强的黑客：在KernelBench上，Gemini 3 Flash的循环将更强的Gemini 3.1 Pro和Claude Opus 4.7的攻击成功率分别从76%和61%降至0%；在Terminal Bench（https://huggingface.co/papers?q=Terminal%20Bench）的77个任务上，Gemini 3.1 Pro的攻击成功率从39%降至17%。我们发布了Terminal Wrench（323个可攻击环境，3,632条攻击轨迹）作为当前攻击面的快照，以及我们修补后的验证器、循环发现的漏洞和我们的实现代码，为未来工作提供基础。

查看arXiv页面（https://arxiv.org/abs/2606.08960）查看PDF（https://arxiv.org/pdf/2606.08960）GitHub0（https://github.com/few-sh/harden-v0）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.08960）

在你的Agent中获取这篇论文：

hf papers read 2606\.08960

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

未找到链接此论文的模型

在模型README.md中引用arxiv.org/abs/2606.08960以从此页面链接。

引用此论文的数据集0

未找到链接此论文的数据集

在数据集README.md中引用arxiv.org/abs/2606.08960以从此页面链接。

引用此论文的Space0

未找到链接此论文的Space

在Space README.md中引用arxiv.org/abs/2606.08960以从此页面链接。

包含此论文的收藏0

未找到包含此论文的收藏

将此论文添加到一个收藏（https://huggingface.co/new-collection）中以从此页面链接。

通过对抗性黑客-修复循环强化代理基准测试

论文页面 - 通过对抗性黑客-修复器循环强化Agent基准测试

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

HarDBench：面向安全人机协作写作的起草式越狱攻击基准

CHASE：基于强化学习的对抗性红蓝对抗提升大语言模型安全性

透过基准测试作弊的镜中镜

安卓会梦想破解游戏吗？用BenchJack系统化审计AI智能体基准测试

GAMBIT：用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准

提交意见反馈