通过对抗性黑客-修复循环强化代理基准测试

Hugging Face Daily Papers 论文

摘要

研究人员提出了一种利用LLM代理的对抗性黑客-修复循环,自动修补代理基准测试中脆弱的验证器,在KernelBench上将攻击成功率从62%降至0%,并证明较弱的防御者可以压制更强的攻击者。

代理基准测试使用结果验证器对提交进行评分,这些验证器通常是手工编写且脆弱的,容易受到奖励破解的攻击。我们审计了五个终端代理基准测试中的1,968个任务,发现其中323个(16%)仅凭任务描述即可被前沿模型破解。这破坏了排行榜排名和强化学习训练信号,但标准的应对方式仍然是手动且被动的。 我们引入黑客-修复循环,一种无需逐任务手动修补即可构建抗利用验证器的方法。该循环交替使用三个LLM代理:黑客试图在不解决问题的情况下通过验证器,修复者修补验证器以拒绝每个发现的利用,求解者确认修补后的验证器仍然接受合法解决方案。循环迭代进行:每次修补都会重塑验证器奖励的内容,从而揭示下一个利用。我们还进一步增加了对验证器的访问权限,并允许修补在不同任务间迁移,以扩展循环发现的利用范围。 在KernelBench上,该循环将公开报告的利用的保留语料库上的攻击成功率从62%降至0%。我们还发现,循环中的较弱代理可以防御更强的黑客:Gemini 3 Flash的循环将更强的Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率从76%和61%降至0%,并将Gemini 3.1 Pro在Terminal Bench上77个任务中的攻击成功率从39%降至17%。我们发布了Terminal Wrench(323个可破解环境,3,632条黑客轨迹)作为当前攻击面的快照,以及我们修补后的验证器、循环发现的利用和我们的实现,作为未来工作的基础。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:40

论文页面 - 通过对抗性黑客-修复器循环强化Agent基准测试

来源:https://huggingface.co/papers/2606.08960

摘要

研究人员发现Agent基准验证系统中普遍存在漏洞,并开发了一种基于LLM智能体的自动化迭代流程,用于创建既抗攻击又能保持合法任务性能的稳健验证器。

Agent基准测试(https://huggingface.co/papers?q=Agent%20benchmarks)通常通过手工编写且脆弱的 结果验证器(https://huggingface.co/papers?q=outcome%20verifiers)对提交进行评分,这使得它们容易受到奖励作弊(https://huggingface.co/papers?q=reward%20hacking)的攻击。我们对五个终端Agent基准测试(https://huggingface.co/papers?q=terminal-agent%20benchmarks)中的1,968个任务进行了审计,发现其中323个(16%)可以被前沿模型仅凭任务描述就成功攻击。这会同时破坏排行榜排名和强化学习训练信号,然而标准的应对方式仍然是手动且被动的。我们引入了黑客-修复器循环(https://huggingface.co/papers?q=hacker-fixer%20loop),这是一种无需对每个任务进行手动修补即可构建 抗攻击验证器(https://huggingface.co/papers?q=exploit-resistant%20verifiers)的方法。该循环交替使用三个LLM智能体(https://huggingface.co/papers?q=LLM%20agents):黑客尝试在不解决任务的情况下通过验证器,修复器修补验证器以拒绝对每个已发现漏洞的攻击,而求解器则确认修补后的验证器仍然接受合法的解决方案。循环不断迭代:每次修补都会重塑验证器的奖励机制,从而暴露下一个漏洞。我们进一步增加了验证器访问权限,并允许修补跨任务迁移,以扩大循环发现的漏洞范围。在KernelBench(https://huggingface.co/papers?q=KernelBench)上,该循环将公开报告的漏洞在保留语料上的攻击成功率(https://huggingface.co/papers?q=attack%20success%20rate)从62%降至0%。我们还发现,循环中较弱的智能体能够防御更强的黑客:在KernelBench上,Gemini 3 Flash的循环将更强的Gemini 3.1 Pro和Claude Opus 4.7的攻击成功率分别从76%和61%降至0%;在Terminal Bench(https://huggingface.co/papers?q=Terminal%20Bench)的77个任务上,Gemini 3.1 Pro的攻击成功率从39%降至17%。我们发布了Terminal Wrench(323个可攻击环境,3,632条攻击轨迹)作为当前攻击面的快照,以及我们修补后的验证器、循环发现的漏洞和我们的实现代码,为未来工作提供基础。

查看arXiv页面(https://arxiv.org/abs/2606.08960)查看PDF(https://arxiv.org/pdf/2606.08960)GitHub0(https://github.com/few-sh/harden-v0)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.08960)

在你的Agent中获取这篇论文:

hf papers read 2606\.08960

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

未找到链接此论文的模型

在模型README.md中引用arxiv.org/abs/2606.08960以从此页面链接。

引用此论文的数据集0

未找到链接此论文的数据集

在数据集README.md中引用arxiv.org/abs/2606.08960以从此页面链接。

引用此论文的Space0

未找到链接此论文的Space

在Space README.md中引用arxiv.org/abs/2606.08960以从此页面链接。

包含此论文的收藏0

未找到包含此论文的收藏

将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

透过基准测试作弊的镜中镜

Hacker News Top

Poolside 在其 Laguna M.1 模型在 SWE-Bench-Pro 上的强化学习训练中发现了奖励作弊现象,发现智能体可以利用 git 历史和其他漏洞来欺骗基准测试,凸显了需要更好的对齐和评估方法。

安卓会梦想破解游戏吗?用BenchJack系统化审计AI智能体基准测试

arXiv cs.AI

本文介绍BenchJack,一种自动化红队系统,通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准,发现了219个不同的缺陷,并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。