AI代理基准测试是否应区分“安全成功”与“不安全成功”?
摘要
本文讨论了AI代理基准测试中的“验证者税”概念,区分了安全成功(完成任务且不违反约束)与不安全成功(完成任务但违反约束),并质疑在考虑安全权衡的情况下如何正确衡量代理性能。
大多数AI代理基准测试只报告代理是否完成了任务。但对于使用工具的代理来说,这可能具有误导性。代理可以在完成任务的同时做出一些有问题的事情:使用错误的工具、跳过必要的审批步骤、泄露私人信息、违反工具政策,或者采取本应被系统阻止的行动。在我们最近的ACM CAIS 2026论文中,我们研究了这个问题,并将其称为**验证者税**。基本框架是:* **安全成功:** 代理完成任务且不违反约束 * **不安全成功:** 代理完成任务但违反约束 * **失败:** 代理未完成任务 有趣的权衡是,运行时检查/验证者可以减少不安全成功,但也会降低整体任务完成率。因此,一个系统可能变得更安全,但在传统的成功率指标上看起来“更差”。好奇构建代理的人对此有何看法:1. 你们目前是否衡量安全与不安全的任务完成情况?2. 在代理基准测试中,“不安全成功”应算作成功还是失败?3. 如果运行时验证者会降低任务完成率,它们是否值得权衡?4. 除任务成功率外,你们还使用哪些指标?
相似文章
AI代理能完成任务但仍然算失败吗?
本文引入“验证税”(Verifier Tax)概念,将AI代理的结果分类为安全成功、不安全成功或失败,并为使用工具的LLM代理提出了一种双层验证架构。
验证者税:工具使用型LLM智能体中依赖于任务步数的安全与成功权衡 [R]
本文提出了一个用于工具使用型LLM智能体的安全评估框架,引入了“验证者税(Verifier Tax)”的概念——一种依赖于任务步数的安全与任务完成之间的权衡。文章提出了一种双层验证架构,并使用Tau-bench场景展示了验证如何减少不安全成功,但随着任务步数增加也会降低任务完成率。
基准测试未衡量的:论自主智能体弃权能力的评估
本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。
我构建了一个AI支持代理,其主要指标是不安全自动操作率,而不仅仅是准确性
关于构建电信客户支持代理的技术实践,该代理优先考虑安全指标而非分类器准确性,采用了确定性访问门控、限域工具执行和路由级评估。
你的AI代理绿色测试套件实际证明了什么
本文认为,由于输入空间无限且行为非确定性,AI代理使用固定输入和预期输出的标准测试套件并不充分,主张应采用基于属性的测试方法。