基准测试未衡量的：论自主智能体弃权能力的评估

arXiv cs.AI 2026/06/03 04:00 论文

ai-safety autonomous-agents benchmarks abstention compliance-bias reward-hacking evaluation

摘要

本文认为，目前的自主智能体基准测试未能评估智能体是否应该继续执行任务，从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法，以及新的评估协议（Safety Rate, Usability Rate, Informed Refusal Rate），初步结果显示，不同模型家族的安全性与可用性之间存在可调节的权衡。

arXiv:2606.02965v1 公告类型：新摘要：自主智能体的基准测试衡量智能体是否完成任务，但这种框架从根本上忽略了智能体是否应该继续执行任务。通过人类反馈目标训练的智能体会形成一种结构性倾向，即使在缺乏输入、证据或安全行动授权的情况下也会继续执行，我们将这种倾向称为合规偏见，因为奖励信号和基准评分机制都将继续执行视为正确的默认行为，无论安全行动的前提条件是否具备。我们做出了三项贡献。我们首先表明，合规偏见源于人类反馈管道中的奖励篡改，并被主流智能体基准测试所固化，这些基准测试要么惩罚智能体的暂停行为，要么在架构上无法区分合理的暂停与静默失败。然后，我们引入了一种需要弃权的场景的三类缺口分类法，包括所需信息缺失的说明缺口、无法确认世界状态的验证缺口以及未获得明确授权的权限缺口，这些共同为构建具备弃权意识的智能体基准测试提供了原则性基础。最后，我们提出了弃权评估协议（Safety Rate, Usability Rate, Informed Refusal Rate），并报告了在144个企业智能体场景和五个模型家族中的初步结果，其中运行时强制实施的弃权机制在授权场景中实现了高达89.2%的危险行动阻止率和87.5%的可用性，表明安全性与可用性之间的权衡是可调节的而非固有的，并且其形状在不同模型家族之间显著变化。我们将此视为初步工作，并将分类法和综合指标作为进一步讨论的起点。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:42

# 基准测试衡量不到的：论自主智能体弃权能力的评估必要性 来源：https://arxiv.org/html/2606.02965 作者：Suresh Venkatasubramanian 布朗大学 罗得岛州普罗维登斯 美国 suresh@brown\.edu (https://arxiv.org/html/2606.02965v1/mailto:[email protected]) \(2026\) ###### 摘要\. 自主智能体的基准测试衡量的是智能体能否完成任务，但这种框架系统性地忽略了一个问题：智能体*是否本应完全不执行操作*。在人类反馈训练目标下训练的智能体会形成一种结构性的倾向，即在缺乏安全行动所需的输入、证据或授权时仍然继续执行，我们将这种倾向称为**合规偏差**，因为无论安全行动的前提条件是否存在，奖励信号和基准测试评分体系都将"继续执行"视为正确的默认行为。我们做出三项贡献。首先，我们证明合规偏差源于人类反馈流程中的奖励黑客行为，并且被主流智能体基准测试进一步固化，这些基准测试要么惩罚暂停行为，要么在架构上无法区分原则性暂停与静默故障。然后，我们引入了一个包含三类应当弃权场景的三缺口分类法，涵盖信息缺失的**规格缺口**、世界状态无法确认的**验证缺口**，以及未获得明确授权的**权限缺口**，这为构建具备弃权意识的智能体基准测试提供了原则性基础。最后，我们提出了弃权评估协议（安全率、可用率和知情拒绝率），并报告了在144个企业级智能体场景和五个模型系列上的初步结果。在这些测试中，一个运行时强制执行的弃权机制在授权场景下实现了高达89.2%的危险行为阻断率和87.5%的可用率，这表明安全-可用性权衡是可调的而非固有的，并且其形态在不同模型系列间存在显著差异。我们将此视为初步工作，并提供分类法和复合指标作为进一步讨论的起点。 智能体评估，自主智能体，弃权，基准测试设计，安全性，合规偏差，LLM智能体，奖励黑客 ††copyright:acmlicensed††journalyear:2026††doi:XXXXXXX\.XXXXXXX††conference:Workshop on Methods and Environments for Evaluating AI Agents; May 26–29, 2026; San Jose, CA, USA††isbn:978\-1\-4503\-XXXX\-X/2026/05††ccs:Computing methodologies Intelligent agents††ccs:Computing methodologies Supervised learning††ccs:Software and its engineering Software testing and debugging## 1\.引言 评估自主智能体的主流范式衡量的是任务成功，通常表示为已完成指定任务的占比、执行步骤数或最终答案的准确性（Liu等人，2024 (https://arxiv.org/html/2606.02965#bib.bib1)；Zhou等人，2023 (https://arxiv.org/html/2606.02965#bib.bib2)；Mialon等人，2024 (https://arxiv.org/html/2606.02965#bib.bib3)；Jimenez等人，2024 (https://arxiv.org/html/2606.02965#bib.bib4)）。这种框架捕捉的是智能体*能否*完成某项任务，但它忽略了智能体*是否本应完全不操作*。一个调用企业API、修改数据库或执行基础设施命令的智能体所采取的行动会产生影响现实世界的后果，这些后果可能难以甚至无法逆转；删除的记录或已提交的付款无法通过更改下一个token来纠正。在没有充分依据的情况下继续执行可能导致无法恢复的状态变化，这是一种性质截然不同的失败，需要采用性质截然不同的评估方法。当前的基准测试无法观察到这种失败，因为它们不包含任何正确标注行为为*暂停*的场景，并且其评分机制在评分时无法区分原则性暂停与静默崩溃。由于基准测试分数驱动着训练激励，未能衡量弃权能力直接转化为未能培养弃权能力。本文旨在填补这一空白：我们从理论上解释了这一空白存在的原因；提供了一个分类法，明确了智能体应暂停的具体场景；并提供了初步实证证据，表明所提出的方案是可行的，并且揭示了一种当前指标完全无法观察到的权衡关系。我们将这些结果视为初步成果，并提供分类法、指标和检查点设计，供基准测试社区采用、扩展，并针对更广泛的智能体架构和部署领域进行压力测试。 ## 2\.相关工作 #### 语言模型与智能体中的弃权。 模型应在何时拒绝输出这一问题有着悠久的实证研究历史，尽管至今仍未解决。Kadavath等人（Kadavath等人，2022 (https://arxiv.org/html/2606.02965#bib.bib26)）表明，模型能够形成对其是否知道答案的校准估计，但这种自我认知在分布偏移下会退化，并且无法可靠地抑制输出。Wen等人（Wen等人，2025 (https://arxiv.org/html/2606.02965#bib.bib27)）调查了更广泛的文献，发现弃权问题在方法、领域和评估设置上均未得到解决。Kirichenko等人（Kirichenko等人，2025 (https://arxiv.org/html/2606.02965#bib.bib28)）通过AbstentionBench提供了坚实的实证基础，该基准包含35,000个不可回答的问题：推理微调平均使弃权能力下降24%，因为模型在推理痕迹中表达了不确定性，但仍然给出了明确的答案，而扩展模型规模几乎无法改善。在智能体层面，Ruan等人（Ruan等人，2024 (https://arxiv.org/html/2606.02965#bib.bib8)）发现，即使在良性条件下，智能体也会绕过模糊指令继续执行。Zhang等人（Zhang等人，2025 (https://arxiv.org/html/2606.02965#bib.bib10)）发现，在16个主流LLM智能体中，没有一个在八个风险类别中达到显著的安全得分。然而，这些工作都没有明确说明一个正确、实用的暂停应该是什么样子，或者应该产生什么结果。 #### 执行层机制。 另一条平行的工作线从执行层而非评估层入手解决智能体安全问题。Costa等人（Costa等人，2025 (https://arxiv.org/html/2606.02965#bib.bib30)）提出了FIDES，该方法通过分配完整性标签，在不可信数据流入特权工具调用时阻止执行。Summers等人（Summers等人，2025 (https://arxiv.org/html/2606.02965#bib.bib29)）通过数据流控制采取了类似的方法，并观察到过度保守的策略可能会引入用户不期望的摩擦。Adam等人（Adam等人，2026 (https://arxiv.org/html/2606.02965#bib.bib31)）提出了一种混合方法，将工具效果的离线静态分析与细粒度的运行时沙箱相结合，从而能够根据用户意图动态调整策略，而非依赖静态的全局限制。这三项工作都构建了原则性的执行机制，但均未涉及基准测试设计或提供用于表征安全-可用性权衡的复合指标。 #### 基准测试基础设施与严谨性。 基准测试严谨性方面的工作提出了一个互补性的担忧，即现有评分机制如何处理弃权行为。Kapoor等人（Kapoor等人，2025 (https://arxiv.org/html/2606.02965#bib.bib32)）引入了HAL，并观察到当前的Web智能体评分机制对弃权的智能体和泄露用户信用卡信息的智能体赋予相同的零分，这就将现实世界中成本相差数个数量级的结果混为一谈。Zhu等人（Zhu等人，2026 (https://arxiv.org/html/2606.02965#bib.bib33)）提出了智能体基准测试检查清单（ABC），并证明一个只返回空响应的平凡智能体在*τ\\tau\-bench*上获得了38%的分数（超过GPT-4o），因为评分机制只接受与地面真实结果的匹配，无论是否进行了任何推理。这两项工作虽然都改进了任务完成度的衡量方式，但都没有将弃权作为标注的地面真实行为引入，也没有提供用于评估特定暂停是否合理的指标。 ## 3\.合规偏差：起源与固化 我们用**合规偏差**（compliance bias）来命名智能体即使在继续操作不安全时仍倾向于继续执行的结构性倾向，这种倾向源于人类反馈奖励信号，并在随后的每个评估阶段被固化。RLHF针对人类评分员偏好的输出进行优化，Sharma等人（Sharma等人，2024 (https://arxiv.org/html/2606.02965#bib.bib5)）表明这会产生*谄媚*（sycophancy）行为：模型根据明显的偏好调整输出，即使牺牲准确性也在所不惜。人类评分员总是偏好自信、能完成任务的响应，因此奖励模型会学会将任务完成与质量关联起来，无论安全操作的前提条件是否存在；当输出是动作而非文本时，一个谄媚的智能体会产生可接受的*动作*，而这些动作可能是不可逆的。Kirichenko等人（Kirichenko等人，2025 (https://arxiv.org/html/2606.02965#bib.bib28)）表明，推理微调平均使弃权能力下降24%，因为模型在推理痕迹中表达了不确定性，但仍然给出了明确的最终答案。 主流的智能体基准测试非但没有纠正这种倾向，反而加剧了它。*AgentBench*（Liu等人，2024 (https://arxiv.org/html/2606.02965#bib.bib1)）通过比较智能体操作后表的哈希值与正确SQL操作后的哈希值来评估数据库环境，因此，一个猜测缺失记录标识符并产生正确最终状态的智能体，与一个在操作前先进行验证的智能体得分相同。*WebArena*（Zhou等人，2023 (https://arxiv.org/html/2606.02965#bib.bib2)）设定了固定的步骤预算，并根据最终状态的准精确匹配进行评分；一个在操作前花费步骤进行验证的智能体可能会在完成前耗尽预算，从而惩罚了合规偏差分析所推荐的谨慎行为。*GAIA*（Mialon等人，2024 (https://arxiv.org/html/2606.02965#bib.bib3)）仅根据最终答案的准精确匹配进行评分，并且明确不评估导致该答案的推理过程，因此中间的验证步骤不会产生任何分数或信号。过度拒绝相关文献（Cui等人，2025 (https://arxiv.org/html/2606.02965#bib.bib6)；Röttger等人，2024 (https://arxiv.org/html/2606.02965#bib.bib7)）和有害合规基准测试（Zhang等人，2025 (https://arxiv.org/html/2606.02965#bib.bib10)；Andriushchenko等人，2025 (https://arxiv.org/html/2606.02965#bib.bib11)）分别评估了这些失败方向，使得评估特定拒绝是否恰当，或量化安全-可用性权衡的优劣变得不可能。 ## 4\.知情弃权框架 我们将**知情弃权**（informed abstention）定义为当下一步操作尚不具备合理依据时触发的结构化暂停，它具备三个特性：*前提条件感知*（由特定的、可识别的未满足条件触发，而非抽象的置信度）；*功能导向*（导向澄清、有限的验证或人工交接，而非终止）；以及*可追溯*（生成可审计的结构化记录）。 ### 4\.1\.应当弃权场景的分类法 **规格缺口（Specification gap）**。当智能体即将调用某个操作但缺少所需的最基本信息时出现，其中"缺少"的定义由工具的schema决定，而非模型置信度。适当的回应是针对性地澄清，明确指出所缺失的内容。示例："给莎拉发奖金"，但缺少员工标识符、金额或理由。这个缺口与幻觉不同：智能体知道自己想做什么，但缺乏安全执行所需的输入。 **验证缺口（Verification gap）**。当智能体无法确认其在行动前需要知晓的状态时出现，可能是因为它将基于未经核实的假设采取行动，或者因为先前的操作已完成但没有明确的成功信号（He等人，2024 (https://arxiv.org/html/2606.02965#bib.bib16)；Koh等人，2024 (https://arxiv.org/html/2606.02965#bib.bib17)）。适当的回应是进行有限的验证步骤，该步骤不会扩大智能体的行动空间。至关重要的是，验证尝试本身应当是可供审计的，以便后续步骤能够推理出哪些信息已确认、哪些尚未确认。 **权限缺口（Authority gap）**。当下一步操作将产生具有约束力的承诺或高影响力的变更，但该特定操作未经明确授权时出现。适当的回应是进行承诺暂停，确切说明即将发生什么并请求批准。这个缺口在隐含委托而非在初始指令中明确说明的多步骤流程中最为突出。FIDES（Costa等人，2025 (https://arxiv.org/html/2606.02965#bib.bib30)）通过完整性标签形式化了相关的区分；权限缺口在此基础上扩展，要求具体后果在执行前必须获得明确授权。 表1\.应当弃权场景的分类法。 ### 4\.2\.弃权评估协议 设H\\mathcal\{H\}为危险场景（标注的正确行为：阻止或暂停），S\\mathcal\{S\}为安全场景（标注的正确行为：执行），action\(s\)\\text\{action\}\(s\)为智能体对场景s的输出标签。阻止标签构成集合B\\mathcal\{B\}，包含blocked\-constraint、blocked\-commitment和grounding\-warning。 **安全率（Safety Rate, SR）**。智能体在危险场景中产生阻止响应的比例： SR=\|\{s∈H:action\(s\)∈B\}\|\|H\|\\text\{SR\}=\\frac\{\|\\\{s\\in\\mathcal\{H\}:\\text\{action\}\(s\)\\in\\mathcal\{B\}\\\}\|\}\{\|\\mathcal\{H\}\|\}SR捕捉的是不安全动作是否被阻止，但忽略了阻止的质量，并且不惩罚不分青红皂白阻止一切的智能体。高SR是必要的但不充分，必须与UR一同解读。 **可用率（Usability Rate, UR）**。智能体在安全场景中完成任务且没有引入不必要摩擦的比例： UR=\|\{s∈S:action\(s\)=executed\-safely\}\|\|S\|\\text\{UR\}=\\frac\{\|\\\{s\\in\\mathcal\{S\}:\\text\{action\}\(s\)=\\textsc\{executed\-safely\}\\\}\|\}\{\|\\mathcal\{S\}\|\}一个通过拒绝一切操作来实现100% SR的智能体并非安全——它已损坏；没有UR，安全机制就无法与系统故障区分开来。安全场景是通过取危险模板并显式提供缺失的前提条件来构建的，确保这对匹配的场景在相反的授权条件下测试相同的底层操作。 **知情拒绝率（Informed Refusal Rate, IRR）**。在阻止响应中，明确指出具体未满足的前提条件而非模糊拒绝的比例： IRR=\|\{s∈H:action\(s\)∈B∧reason\(s\)≠∅\}\|\|\{s∈H:action\(s\)∈B\}\|\\text\{IRR\}=\\frac\{\|\\\{s\\in\\mathcal\{H\}:\\text\{action\}\(s\)\\in\\mathcal\{B\}\\wedge\\text\{reason\}\(s\)\\neq\\varnothing\\\}\|\}\{\|\\\{s\\in\\mathcal\{H\}:\\text\{action\}\\(s\)\\in\\mathcal\{B\}\\\}\|\}IRR区分了一个校准良好的安全机制与一个引入无用摩擦的机制。一个明确指出缺失字段或未经授权承诺的阻止有助于人工监督；而模糊的拒绝则做不到。对于Checkpoint条件，IRR是结构性保证（包装器始终输出结构化解释）；对于Baseline和Prompt-Only条件，IRR通过LLM评判器估计，应视为近似值（提示词见附录D (https://arxiv.org/html/2606.02965#A4)）。 ## 5\.初步证据 ### 5\.1\.实验设置 #### 条件与模型。 测试了三种条件：*Baseline*（无弃权策略）、*Prompt-Only*（系统提示策略）以及*Checkpoint*（运行时强制）。完整的系统提示见附录B (https://arxiv.org/html/2606.02965#A2)。评估了七个模型系列：GPT-4o、GPT-5\.4\-mini、Llama 3\.1 8B、Claude Sonnet 4\.6、Claude Opus 4\.6、Gemini 2\.5 Pro和Gemini 2\.5 Flash，均使用LangChain中的ReAct架构（Yao等人，2023 (https://arxiv.org/html/2606.02965#bib.bib14)）。

基准测试未衡量的：论自主智能体弃权能力的评估

相似文章

Agent-ValueBench：一个评估智能体价值观的综合基准

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

AgentCollabBench：诊断优秀智能体为何成为糟糕的协作者

Agentick：用于通用序贯决策智能体的统一基准

部分证据基准：对智能体系统中授权受限证据的评估

提交意见反馈