GAMBIT:用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准
摘要
本文介绍了 GAMBIT,这是一个用于评估多智能体 LLM 集体中对抗鲁棒性的基准测试。该基准包含自适应冒名顶替者(imposter)和重新校准(recalibration)模式,旨在解决现有浅层评估方法的局限性。
arXiv:2605.09027v1 公告类型:新论文
摘要:在多智能体系统(MAS)中,单个欺骗性智能体即可抹杀智能体 AI 集体的所有增益,并规避部署的防御措施。然而,现有的针对 MAS 的对抗性研究仅针对浅层任务,且未考虑能够进化其策略以规避专门训练用于检测它们的检测器的自适应对抗者。为了填补这一空白,我们引入了 GAMBIT,这是一个具有三种评估模式和两个独立评分指标以评估冒名顶替者检测器的基准:前两种模式测量在分布偏移逐渐增加情况下的零样本检测能力,第三种重新校准模式则测量检测器仅凭 20 个标记样本适应新型攻击的速度。该基准附带一个包含 27,804 个标记实例的数据集,涵盖 240 种协同进化的冒名顶替者策略。我们的贡献主要有三点:(1)以国际象棋作为深层推理问题的载体,并采用 Gemini 3.1 Pro 作为智能体,我们发布了 GAMBIT 及其数据集,用于在现实约束下针对隐蔽的自适应冒名顶替者评估检测器;(2)我们引入了一种基于高效进化框架的自适应冒名顶替者智能体,该框架可推广至国际象棋以外的领域,能够在使集体任务性能崩溃的同时保持几乎不可检测(基于 Gemini 的检测器的 F1 得分为 50.5%);(3)我们表明,针对自适应对抗者,零样本评估可能极具误导性:两个零样本得分近乎相同的检测器在少样本适应方面相差 8 倍,而元学习变体的收敛速度快 20 倍,这一差距仅在重新校准模式下可见。总体而言,GAMBIT 提供了首个对抗性攻击与防御协同进化的多智能体基准,其冒名顶替者框架可推广至我们的用例之外,并展示了在快速演进的对抗性系统中进行快速重新校准的有前景的技术。代码和数据:https://anonymous.4open.science/r/gambit。
查看缓存全文
缓存时间: 2026/05/12 07:08
# GAMBIT:多智能体大语言模型群体中对抗鲁棒性的三模态基准测试 来源:https://arxiv.org/abs/2605.09027 查看 PDF (https://arxiv.org/pdf/2605.09027) > 摘要:在多智能体系统(MAS)中,单个欺骗性智能体即可抵消代理式 AI 群体带来的所有收益,并规避已部署的防御措施。然而,现有关于多智能体系统的对抗性研究仅针对浅层任务,且未考虑适应性对抗者,后者会演化其策略以规避专门训练来捕捉它们的检测器。为了弥补这一差距,我们引入了 GAMBIT,这是一个具有三种评估模式和两个独立分数的基准测试,用于评估冒名顶替者检测器:前两种模式测量在分布偏移不断增加情况下的零样本检测能力,第三种重新校准模式则测量检测器仅凭 20 个带标签样本就能多快地适应新型攻击。该基准测试附带一个包含 27,804 个带标签实例的数据集,涵盖 240 种共同演化的冒名顶替者策略。我们的贡献有三点:(1)以国际象棋作为深层推理问题的底层载体,并采用 Gemini 3.1 Pro 作为智能体,我们发布了 GAMBIT 及其数据集,以在现实约束下针对隐蔽的适应性冒名顶替者来评估冒名顶替者检测器;(2)我们引入了一种基于高效演化框架的适应性冒名顶替者智能体,该框架可推广至国际象棋之外的领域,它在使集体任务表现崩溃的同时基本无法被检测(使用基于 Gemini 的检测器,F1 分数仅为 50.5%);(3)我们表明,对于适应性对抗者而言,零样本评估可能极具误导性:两种零样本分数近乎相同的检测器在少样本适应方面相差 8 倍,而元学习变体收敛速度快 20 倍,这一差距仅在重新校准模式下可见。总而言之,GAMBIT 提供了首个对抗性攻击与防御共同演化的多智能体基准测试,其冒名顶替者框架可推广至我们的用例之外,并为快速演变的对抗性系统中的快速重新校准提供了有前景的技术。代码和数据:this https URL (https://anonymous.4open.science/r/gambit)。 ## 提交历史 来自:Alexandre Le Mercier \[查看邮件 (https://arxiv.org/show-email/b985ade1/2605.09027)\] **\[v1\]** 2026 年 5 月 9 日,星期六,16:07:23 UTC \(3,912 KB\)
相似文章
超越 Goodhart's Law:用于评估多智能体系统合规性的动态基准
本文介绍了 MAC-Bench,一个用于评估多智能体系统程序合规性的动态对抗基准。它提出了 SERV 流水线以生成无污染场景,以及新的指标如合规加权成功率 (CSR) 和马基雅维利差距 (MG)。
Gate AI:LLM安全基准评估方法与结果
本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
基于智能体评估与稳定性感知排序的多模态大语言模型鲁棒检查点选择
本文解决了评估不确定性下多模态大语言模型的鲁棒检查点选择挑战,提出了一个多阶段框架,整合了精心策划的真实世界数据、基于LLM的判断以及带有置信度估计的排序协议。
CollabBench:通过主动参与与多样玩家基准测试并释放LLM协作能力
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。