GAMBIT：用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准

arXiv cs.CL 2026/05/12 04:00 论文

摘要

本文介绍了 GAMBIT，这是一个用于评估多智能体 LLM 集体中对抗鲁棒性的基准测试。该基准包含自适应冒名顶替者（imposter）和重新校准（recalibration）模式，旨在解决现有浅层评估方法的局限性。

arXiv:2605.09027v1 公告类型：新论文摘要：在多智能体系统（MAS）中，单个欺骗性智能体即可抹杀智能体 AI 集体的所有增益，并规避部署的防御措施。然而，现有的针对 MAS 的对抗性研究仅针对浅层任务，且未考虑能够进化其策略以规避专门训练用于检测它们的检测器的自适应对抗者。为了填补这一空白，我们引入了 GAMBIT，这是一个具有三种评估模式和两个独立评分指标以评估冒名顶替者检测器的基准：前两种模式测量在分布偏移逐渐增加情况下的零样本检测能力，第三种重新校准模式则测量检测器仅凭 20 个标记样本适应新型攻击的速度。该基准附带一个包含 27,804 个标记实例的数据集，涵盖 240 种协同进化的冒名顶替者策略。我们的贡献主要有三点：（1）以国际象棋作为深层推理问题的载体，并采用 Gemini 3.1 Pro 作为智能体，我们发布了 GAMBIT 及其数据集，用于在现实约束下针对隐蔽的自适应冒名顶替者评估检测器；（2）我们引入了一种基于高效进化框架的自适应冒名顶替者智能体，该框架可推广至国际象棋以外的领域，能够在使集体任务性能崩溃的同时保持几乎不可检测（基于 Gemini 的检测器的 F1 得分为 50.5%）；（3）我们表明，针对自适应对抗者，零样本评估可能极具误导性：两个零样本得分近乎相同的检测器在少样本适应方面相差 8 倍，而元学习变体的收敛速度快 20 倍，这一差距仅在重新校准模式下可见。总体而言，GAMBIT 提供了首个对抗性攻击与防御协同进化的多智能体基准，其冒名顶替者框架可推广至我们的用例之外，并展示了在快速演进的对抗性系统中进行快速重新校准的有前景的技术。代码和数据：https://anonymous.4open.science/r/gambit。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 07:08

# GAMBIT：多智能体大语言模型群体中对抗鲁棒性的三模态基准测试
来源：https://arxiv.org/abs/2605.09027
查看 PDF (https://arxiv.org/pdf/2605.09027)

> 摘要：在多智能体系统（MAS）中，单个欺骗性智能体即可抵消代理式 AI 群体带来的所有收益，并规避已部署的防御措施。然而，现有关于多智能体系统的对抗性研究仅针对浅层任务，且未考虑适应性对抗者，后者会演化其策略以规避专门训练来捕捉它们的检测器。为了弥补这一差距，我们引入了 GAMBIT，这是一个具有三种评估模式和两个独立分数的基准测试，用于评估冒名顶替者检测器：前两种模式测量在分布偏移不断增加情况下的零样本检测能力，第三种重新校准模式则测量检测器仅凭 20 个带标签样本就能多快地适应新型攻击。该基准测试附带一个包含 27,804 个带标签实例的数据集，涵盖 240 种共同演化的冒名顶替者策略。我们的贡献有三点：（1）以国际象棋作为深层推理问题的底层载体，并采用 Gemini 3.1 Pro 作为智能体，我们发布了 GAMBIT 及其数据集，以在现实约束下针对隐蔽的适应性冒名顶替者来评估冒名顶替者检测器；（2）我们引入了一种基于高效演化框架的适应性冒名顶替者智能体，该框架可推广至国际象棋之外的领域，它在使集体任务表现崩溃的同时基本无法被检测（使用基于 Gemini 的检测器，F1 分数仅为 50.5%）；（3）我们表明，对于适应性对抗者而言，零样本评估可能极具误导性：两种零样本分数近乎相同的检测器在少样本适应方面相差 8 倍，而元学习变体收敛速度快 20 倍，这一差距仅在重新校准模式下可见。总而言之，GAMBIT 提供了首个对抗性攻击与防御共同演化的多智能体基准测试，其冒名顶替者框架可推广至我们的用例之外，并为快速演变的对抗性系统中的快速重新校准提供了有前景的技术。代码和数据：this https URL (https://anonymous.4open.science/r/gambit)。

## 提交历史

来自：Alexandre Le Mercier \[查看邮件 (https://arxiv.org/show-email/b985ade1/2605.09027)\] **\[v1\]** 2026 年 5 月 9 日，星期六，16:07:23 UTC \(3,912 KB\)

GAMBIT：用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准

相似文章

AgentCollabBench：诊断优秀智能体为何成为糟糕的协作者

SAGE：用于 LLM 知识评估的可扩展自动化鲁棒性增强

Agentick：用于通用序贯决策智能体的统一基准

迈向可安全审计的大模型智能体：一种统一的图表示方法

当无基准存在时：验证无真实标签的LLM安全评分比较

提交意见反馈