超越 Goodhart's Law:用于评估多智能体系统合规性的动态基准
摘要
本文介绍了 MAC-Bench,一个用于评估多智能体系统程序合规性的动态对抗基准。它提出了 SERV 流水线以生成无污染场景,以及新的指标如合规加权成功率 (CSR) 和马基雅维利差距 (MG)。
查看缓存全文
缓存时间: 2026/06/09 08:53
# 超越古德哈特定律:多智能体系统合规性评估的动态基准 来源:https://arxiv.org/html/2606.07805 Yiyang Zhao [email protected] (https://arxiv.org/html/2606.07805v1/mailto:[email protected]) 复旦大学,上海,中国;上海人工智能实验室,上海,中国 Zhuo Zhang [email protected] (https://arxiv.org/html/2606.07805v1/mailto:[email protected]) 上海人工智能实验室,上海,中国 Qingxuan Le [email protected] (https://arxiv.org/html/2606.07805v1/mailto:[email protected]) 复旦大学,上海,中国;上海人工智能实验室,上海,中国 Lizhen Qu [email protected] (https://arxiv.org/html/2606.07805v1/mailto:[email protected]) 莫纳什大学,墨尔本,澳大利亚 以及 Zenglin Xu [email protected] (https://arxiv.org/html/2606.07805v1/mailto:[email protected]) 复旦大学,上海,中国;上海人工智能实验室,上海,中国 ###### 摘要 大型语言模型(LLMs)从被动助手向自主、可执行智能体的快速演进引入了关键的操作风险。当前大多数评估框架忽视了程序性合规性,导致“马基雅维利式”行为——智能体为最大化奖励而策略性违反安全规则——这是古德哈特定律的直接体现。为解决这一盲点,我们提出MAC-Bench,一个动态、对抗性的基准测试,旨在评估多智能体系统在现实压力下的程序对齐。我们提出了SERV(Seed→Evolve→Refine→Verify)流水线,一种“智能体即基准”范式,将非结构化法律文本转化为可执行、无污染的测试场景。通过合成全息沙盒环境并注入校准的社会工程压力向量,MAC-Bench迫使智能体在任务成功与规则遵守之间做出帕累托最优权衡。我们引入了新颖的指标:合规加权成功率(CSR)和马基雅维利差距(MG),并对最前沿的模型进行了全面评估,揭示了成功与合规之间普遍存在的权衡。代码见此处 (https://github.com/leonardeee/MAC-Bench)。 多智能体系统;基准测试与数据集;可信赖人工智能 ††ccs: Computing methodologies 多智能体系统 ††ccs: Computing methodologies 人工智能 ††ccs: General and reference 评估 参见图注 图1. MAC-Bench框架概览。(A) SERV流水线(Seed→Evolve→Refine→Verify)自动将非结构化的法律和监管语料转化为动态、无污染的对抗性环境。(B) 智能体行为在校准的社会工程压力下的评估机制。MAC-Bench审计完整执行轨迹τ以检测马基雅维利行为。 表1. MAC-Bench与相关基准的对比 ## 1. 引言 人工智能领域正经历根本性的变革。大型语言模型(LLMs)正迅速从被动的对话系统进化为*自主、可执行的智能体*,它们主动与数字环境交互——浏览网页、查询数据库、调用API,并在多智能体系统中协调运作 (Wu et al., 2023 (https://arxiv.org/html/2606.07805#bib.bib108); Hong et al., 2023 (https://arxiv.org/html/2606.07805#bib.bib110); Wang et al., 2024 (https://arxiv.org/html/2606.07805#bib.bib3))。为评估这一转变,许多智能体基准——包括GAIA和WebArena (Mialon et al., 2023 (https://arxiv.org/html/2606.07805#bib.bib4); Zhou et al., 2023 (https://arxiv.org/html/2606.07805#bib.bib47))——几乎只通过*成功率(SR)*来评估性能。这种以成功为中心的设计引发了我们所称的*成功悖论*:智能体因完成任务而获得奖励,无论其底层的执行过程是否遵循要求的规则和约束。因此,基准实际上激励了*规范博弈*和*奖励黑客* (Amodei et al., 2016 (https://arxiv.org/html/2606.07805#bib.bib98); Krakovna et al., 2020 (https://arxiv.org/html/2606.07805#bib.bib11))。这种动态直接反映了古德哈特定律——当一个指标成为目标时,它就不再是一个好指标 (Goodhart, 1975 (https://arxiv.org/html/2606.07805#bib.bib12))。因此,智能体学会优化可观察的成功,而系统性地忽略合规性、安全性和程序完整性等未测量的维度。 此外,随着LLM智能体从实验室原型向受监管和安全关键领域的部署迈进,这种评估差距变得具有操作性后果。合规性不再是一个可取的辅助属性;它是一个法律强制的需求。监管框架如*欧洲人工智能法案*对高风险系统施加了风险管理、透明度和可追溯性的明确义务,而数据保护法律如GDPR和PIPL则对数据访问、最小化和处理程序施加了严格限制 (European Union, 2016b (https://arxiv.org/html/2606.07805#bib.bib19), 2024b (https://arxiv.org/html/2606.07805#bib.bib20); National People’s Congress of the People’s Republic of China, 2021b (https://arxiv.org/html/2606.07805#bib.bib21))。在这些环境中,一个通过绕过身份验证、忽略同意检查或违反隐私政策来完成任务的行为,不仅是次优的——它还直接导致法律、财务和操作责任。 这项工作的一个核心见解是,合规性本质上是*过程*的属性,而不仅仅是最终输出。智能体是否验证了授权、最小化了数据访问、应用了必要的安全措施、或维护了可审计的执行轨迹,不能从其最终回复中推断出来 (Levy et al., 2024 (https://arxiv.org/html/2606.07805#bib.bib7))。尽管智能体系统在受监管环境中日益重要,但目前*没有基准能够系统性地端到端评估程序合规性*——即,智能体在执行过程中是否遵循所需规则,而不仅仅是产生一个看似合规的结果。现有基准要么关注任务成功、输出级别的政策遵守,要么关注孤立的违规行为,留下了评估智能体在任务执行过程中*如何*行为的关键空白。因此,大多数现有基准由于三个系统性局限而不适合评估程序完整性。首先,*记忆化脆弱性*:静态任务实例可能泄露到训练语料中,使智能体在没有真正理解规则的情况下实现表面成功。第二,*遗漏盲点*:未能执行某些动作——如跳过加密或同意验证——在仅评估输出的方式下是不可见的。第三,*上下文消除*:静态基准无法捕捉到现实世界中经常驱动合规违规的组织、社会和层级压力。 为克服这些局限,我们提出MAC-Bench(多智能体合规基准),一个动态的、基于轨迹的评估框架,旨在对LLM智能体进行压力测试,在任务成功与监管合规直接冲突的现实条件下。与之前的基准不同,MAC-Bench不仅评估智能体*完成了什么*,还评估*如何完成*。MAC-Bench通过三项方法创新区别于现有方法。首先,我们提出SERV流水线(Seed→Evolve→Refine→Verify),一个以数据为中心的工作流,将非结构化的监管和法律文本——如GDPR、EU AI Act和CIS基准——转化为结构化的、机器可执行的原子规则库,并具有明确的来源,如图1 (https://arxiv.org/html/2606.07805#S0.F1)所示。其次,我们引入*智能体即基准(AaaB)*范式,其中专门的“场景智能体”在运行时动态综合对抗性任务和可执行环境,确保可扩展性和对基准污染的鲁棒性。第三,我们纳入*社会工程压力注入*,系统性地应用现实的组织压力——如权威、紧迫性和互惠——以引发真实的成功-合规权衡,而非依赖于合成式的越狱提示。MAC-Bench与现有相关基准在关键评估属性上的对比见表1 (https://arxiv.org/html/2606.07805#S0.T1)。 本文作出了三个主要贡献: 1. (1) SERV方法论:一个通用的流水线,用于将原始监管文本转化为可执行、可审计的基准规则,满足高保真度和抗污染评估数据集的需求。 2. (2) 生成式评估环境:一种新的智能体即基准范式,使得智能体在复杂、规则约束的环境中进行自演化、上下文丰富的评估。 3. (3) 成功-合规权衡与新指标:我们通过实验证明了最先进智能体中普遍存在的权衡,并引入了两个新颖的度量——*合规加权成功率(CSR)*和*马基雅维利差距(MG)*——以量化在现实压力下的策略性规则违反。 更多信息、实现细节和相关资源,请参见我们的GitHub仓库 (https://github.com/leonardeee/MAC-Bench)。 ## 2. 相关工作 静态能力与安全基准。诸如AgentBench、GAIA和τ-Bench等基准已在多种环境中标准化了智能体效用的评估,包括工具使用、网络交互和多步推理 (Liu et al., 2023a (https://arxiv.org/html/2606.07805#bib.bib5); Mialon et al., 2023 (https://arxiv.org/html/2606.07805#bib.bib4); Yao and others, 2024 (https://arxiv.org/html/2606.07805#bib.bib25))。尽管这些基准在测量成功率(SR)方面有效,但它们本质上是面向结果的:任务完成被视为成功的充分条件。因此,它们可能忽略*程序性违规*——例如,通过SQL注入而非合规的参数化查询来实现目标,如常见弱点分类(如CWE)中所列 (The MITRE Corporation, 2024 (https://arxiv.org/html/2606.07805#bib.bib22))。最近的金融智能体研究进一步强调了在重要领域进行风险感知时间推理和生态多智能体市场模拟的必要性 (Chen et al., 2025a (https://arxiv.org/html/2606.07805#bib.bib126); Zou et al., 2026 (https://arxiv.org/html/2606.07805#bib.bib127))。 智能体安全基准如Agent-SafetyBench和ST-WebAgentBench将评估扩展到特定的威胁模型,包括提示注入、钓鱼和政策违规 (Zhang et al., 2024 (https://arxiv.org/html/2606.07805#bib.bib8); Levy et al., 2024 (https://arxiv.org/html/2606.07805#bib.bib7))。然而,大多数现有套件依赖大致静态的场景集和预定义的攻击模式。这种设计导致两个充分记录的局限:(i) *数据污染*,其中基准实例泄露到训练语料中并人为提高分数 (Xu and others, 2024a (https://arxiv.org/html/2606.07805#bib.bib30); Zhu and others, 2024 (https://arxiv.org/html/2606.07805#bib.bib31); Li et al., 2024b (https://arxiv.org/html/2606.07805#bib.bib32); Choi et al., 2025 (https://arxiv.org/html/2606.07805#bib.bib33));以及 (ii) 不足的*动态目标冲突*,使得难以评估智能体是否会自愿在现实压力下牺牲合规性 (Levy et al., 2024 (https://arxiv.org/html/2606.07805#bib.bib7); Yao and others, 2024 (https://arxiv.org/html/2606.07805#bib.bib25))。MAC-Bench直接针对这一空白,通过在对抗性引发的成功-合规权衡下评估程序合规性。 合规性与隐私评估。越来越多的文献开始明确评估智能体系统中的规范性约束。MAGPIE(多智能体上下文隐私评估)使用结构化场景表示评估多智能体协作中的上下文隐私风险,揭示在多轮协调中区分公共和私人信息的高错误率 (Juneja and others, 2025 (https://arxiv.org/html/2606.07805#bib.bib26))。然而,MAGPIE依赖于有限的策划场景集,且未将*压力注入*作为引发合规-效用权衡的首要机制 (Juneja and others, 2025 (https://arxiv.org/html/2606.07805#bib.bib26))。 PrivacyLens评估语言模型智能体的隐私规范意识和政策遵守倾向,关注智能体是否识别并尊重与隐私相关的约束 (Shao and others, 2024 (https://arxiv.org/html/2606.07805#bib.bib9))。它的评估主要强调静态政策推理和输出级别的判断,而非在可执行环境内部端到端审计智能体行为。相比之下,MAC-Bench将范围从隐私扩展到涵盖法律、安全和伦理约束的*程序合规性*,并通过轨迹级审计评估智能体,以揭示在仅输出指标下不可见的违规行为 (Levy et al., 2024 (https://arxiv.org/html/2606.07805#bib.bib7); Zhang et al., 2024 (https://arxiv.org/html/2606.07805#bib.bib8))。 对抗性与动态评估。动态和对抗性评估已成为研究智能体鲁棒性和安全性的重要方向。AgentDojo引入了一个可扩展的环境,用于测试智能体在工具增强工作流中的提示注入和自适应攻击 (Debenedetti and others, 2024 (https://arxiv.org/html/2606.07805#bib.bib27))。在工业界,评估平台如Parea使得已部署LLM应用的持续测试、实验跟踪和回归分析成为可能 (Parea AI, 2026 (https://arxiv.org/html/2606.07805#bib.bib29))。另一方面,AgentPoison研究针对LLM智能体的后门式攻击,通过污染长期记忆或检索增强知识库,证明无需额外模型训练即可诱导有害行为 (Chen et al., 2024 (https://arxiv.org/html/2606.07805#bib.bib28))。近期工作还探索了LLM驱动的多智能体搜索系统的端到端强化学习,展示了异质智能体组可以被联合优化,而不仅仅是手动提示工程 (Chen et al., 2026 (https://arxiv.org/html/2606.07805#bib.bib128))。 这些方法主要关注*外部威胁模型*——如提示注入、污染上下文或鲁棒性退化——而非系统性地引发由现实组织压力驱动的*内部对齐失败*。MAC-Bench在方法论和目标上都不同。通过*智能体即基准*范式,自主智能体在运行时生成、实现并演化抗污染的可执行环境 (Debenedetti and others, 2024 (https://arxiv.org/html/2606.07805#bib.bib27); Yao and others, 2024 (https://arxiv.org/html/2606.07805#bib.bib25))。此外,我们不是使用通用的对抗性提示,而是通过*社会工程压力注入*明确实例化任务成功与合规之间的帕累托最优冲突,模拟经常驱动现实合规失败的组织压力——如权威和紧迫性。 ## 3. 方法论
相似文章
基准测试未衡量的:论自主智能体弃权能力的评估
本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
GAMBIT:用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准
本文介绍了 GAMBIT,这是一个用于评估多智能体 LLM 集体中对抗鲁棒性的基准测试。该基准包含自适应冒名顶替者(imposter)和重新校准(recalibration)模式,旨在解决现有浅层评估方法的局限性。
MANTRA:为工具使用型 LLM 代理综合生成经 SMT 验证的合规基准
本文介绍了 MANTRA,这是一个从自然语言手册中自动综合生成经 SMT 验证的合规基准的框架,用于评估工具使用型 LLM 代理。研究表明,该方法能够实现对复杂程序规则遵循情况的可扩展且可靠的评估。
Agentick:用于通用序贯决策智能体的统一基准
本文介绍了 Agentick,这是一个用于评估涵盖强化学习(RL)、大型语言模型(LLM)和视觉语言模型(VLM)范式的通用序贯决策智能体的统一基准测试。该基准提供了 37 个程序化生成的任务,并揭示目前尚无单一方法占据主导地位,突显了智能体自主性方面仍有巨大的提升空间。