GAMBIT:用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准
摘要
本文介绍了 GAMBIT,这是一个用于评估多智能体 LLM 集体中对抗鲁棒性的基准测试。该基准包含自适应冒名顶替者(imposter)和重新校准(recalibration)模式,旨在解决现有浅层评估方法的局限性。
查看缓存全文
缓存时间: 2026/05/12 07:08
# GAMBIT:多智能体大语言模型群体中对抗鲁棒性的三模态基准测试 来源:https://arxiv.org/abs/2605.09027 查看 PDF (https://arxiv.org/pdf/2605.09027) > 摘要:在多智能体系统(MAS)中,单个欺骗性智能体即可抵消代理式 AI 群体带来的所有收益,并规避已部署的防御措施。然而,现有关于多智能体系统的对抗性研究仅针对浅层任务,且未考虑适应性对抗者,后者会演化其策略以规避专门训练来捕捉它们的检测器。为了弥补这一差距,我们引入了 GAMBIT,这是一个具有三种评估模式和两个独立分数的基准测试,用于评估冒名顶替者检测器:前两种模式测量在分布偏移不断增加情况下的零样本检测能力,第三种重新校准模式则测量检测器仅凭 20 个带标签样本就能多快地适应新型攻击。该基准测试附带一个包含 27,804 个带标签实例的数据集,涵盖 240 种共同演化的冒名顶替者策略。我们的贡献有三点:(1)以国际象棋作为深层推理问题的底层载体,并采用 Gemini 3.1 Pro 作为智能体,我们发布了 GAMBIT 及其数据集,以在现实约束下针对隐蔽的适应性冒名顶替者来评估冒名顶替者检测器;(2)我们引入了一种基于高效演化框架的适应性冒名顶替者智能体,该框架可推广至国际象棋之外的领域,它在使集体任务表现崩溃的同时基本无法被检测(使用基于 Gemini 的检测器,F1 分数仅为 50.5%);(3)我们表明,对于适应性对抗者而言,零样本评估可能极具误导性:两种零样本分数近乎相同的检测器在少样本适应方面相差 8 倍,而元学习变体收敛速度快 20 倍,这一差距仅在重新校准模式下可见。总而言之,GAMBIT 提供了首个对抗性攻击与防御共同演化的多智能体基准测试,其冒名顶替者框架可推广至我们的用例之外,并为快速演变的对抗性系统中的快速重新校准提供了有前景的技术。代码和数据:this https URL (https://anonymous.4open.science/r/gambit)。 ## 提交历史 来自:Alexandre Le Mercier \[查看邮件 (https://arxiv.org/show-email/b985ade1/2605.09027)\] **\[v1\]** 2026 年 5 月 9 日,星期六,16:07:23 UTC \(3,912 KB\)
相似文章
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
SAGE:用于 LLM 知识评估的可扩展自动化鲁棒性增强
本文介绍了 SAGE,这是一个用于 LLM 知识评估基准测试的可扩展自动化鲁棒性增强框架。该框架使用经过强化学习微调的小模型,以低于现有方法的成本生成和验证问题变体。
Agentick:用于通用序贯决策智能体的统一基准
本文介绍了 Agentick,这是一个用于评估涵盖强化学习(RL)、大型语言模型(LLM)和视觉语言模型(VLM)范式的通用序贯决策智能体的统一基准测试。该基准提供了 37 个程序化生成的任务,并揭示目前尚无单一方法占据主导地位,突显了智能体自主性方面仍有巨大的提升空间。
迈向可安全审计的大模型智能体:一种统一的图表示方法
本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。
当无基准存在时:验证无真实标签的LLM安全评分比较
本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。