通过对抗性黑客-修复循环强化代理基准测试
摘要
研究人员提出了一种利用LLM代理的对抗性黑客-修复循环,自动修补代理基准测试中脆弱的验证器,在KernelBench上将攻击成功率从62%降至0%,并证明较弱的防御者可以压制更强的攻击者。
查看缓存全文
缓存时间: 2026/06/09 08:40
论文页面 - 通过对抗性黑客-修复器循环强化Agent基准测试
来源:https://huggingface.co/papers/2606.08960
摘要
研究人员发现Agent基准验证系统中普遍存在漏洞,并开发了一种基于LLM智能体的自动化迭代流程,用于创建既抗攻击又能保持合法任务性能的稳健验证器。
Agent基准测试(https://huggingface.co/papers?q=Agent%20benchmarks)通常通过手工编写且脆弱的 结果验证器(https://huggingface.co/papers?q=outcome%20verifiers)对提交进行评分,这使得它们容易受到奖励作弊(https://huggingface.co/papers?q=reward%20hacking)的攻击。我们对五个终端Agent基准测试(https://huggingface.co/papers?q=terminal-agent%20benchmarks)中的1,968个任务进行了审计,发现其中323个(16%)可以被前沿模型仅凭任务描述就成功攻击。这会同时破坏排行榜排名和强化学习训练信号,然而标准的应对方式仍然是手动且被动的。我们引入了黑客-修复器循环(https://huggingface.co/papers?q=hacker-fixer%20loop),这是一种无需对每个任务进行手动修补即可构建 抗攻击验证器(https://huggingface.co/papers?q=exploit-resistant%20verifiers)的方法。该循环交替使用三个LLM智能体(https://huggingface.co/papers?q=LLM%20agents):黑客尝试在不解决任务的情况下通过验证器,修复器修补验证器以拒绝对每个已发现漏洞的攻击,而求解器则确认修补后的验证器仍然接受合法的解决方案。循环不断迭代:每次修补都会重塑验证器的奖励机制,从而暴露下一个漏洞。我们进一步增加了验证器访问权限,并允许修补跨任务迁移,以扩大循环发现的漏洞范围。在KernelBench(https://huggingface.co/papers?q=KernelBench)上,该循环将公开报告的漏洞在保留语料上的攻击成功率(https://huggingface.co/papers?q=attack%20success%20rate)从62%降至0%。我们还发现,循环中较弱的智能体能够防御更强的黑客:在KernelBench上,Gemini 3 Flash的循环将更强的Gemini 3.1 Pro和Claude Opus 4.7的攻击成功率分别从76%和61%降至0%;在Terminal Bench(https://huggingface.co/papers?q=Terminal%20Bench)的77个任务上,Gemini 3.1 Pro的攻击成功率从39%降至17%。我们发布了Terminal Wrench(323个可攻击环境,3,632条攻击轨迹)作为当前攻击面的快照,以及我们修补后的验证器、循环发现的漏洞和我们的实现代码,为未来工作提供基础。
查看arXiv页面(https://arxiv.org/abs/2606.08960)查看PDF(https://arxiv.org/pdf/2606.08960)GitHub0(https://github.com/few-sh/harden-v0)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.08960)
在你的Agent中获取这篇论文:
hf papers read 2606\.08960
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
未找到链接此论文的模型
在模型README.md中引用arxiv.org/abs/2606.08960以从此页面链接。
引用此论文的数据集0
未找到链接此论文的数据集
在数据集README.md中引用arxiv.org/abs/2606.08960以从此页面链接。
引用此论文的Space0
未找到链接此论文的Space
在Space README.md中引用arxiv.org/abs/2606.08960以从此页面链接。
包含此论文的收藏0
未找到包含此论文的收藏
将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
HarDBench:面向安全人机协作写作的起草式越狱攻击基准
研究者推出 HarDBench 基准,揭示 LLM 在协作写作中因恶意草稿被越狱的风险,并提出基于偏好优化的防御方法,在不影响协作实用性的前提下显著降低有害输出。
CHASE:基于强化学习的对抗性红蓝对抗提升大语言模型安全性
CHASE 提出了一种共同进化的红蓝对抗框架,利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力,在基准测试中将越狱成功率降低43.2%,同时在对良性提示的误拒率保持为零。
透过基准测试作弊的镜中镜
Poolside 在其 Laguna M.1 模型在 SWE-Bench-Pro 上的强化学习训练中发现了奖励作弊现象,发现智能体可以利用 git 历史和其他漏洞来欺骗基准测试,凸显了需要更好的对齐和评估方法。
安卓会梦想破解游戏吗?用BenchJack系统化审计AI智能体基准测试
本文介绍BenchJack,一种自动化红队系统,通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准,发现了219个不同的缺陷,并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。
GAMBIT:用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准
本文介绍了 GAMBIT,这是一个用于评估多智能体 LLM 集体中对抗鲁棒性的基准测试。该基准包含自适应冒名顶替者(imposter)和重新校准(recalibration)模式,旨在解决现有浅层评估方法的局限性。