AI代理基准测试是否应区分“安全成功”与“不安全成功”?

Reddit r/AI_Agents 论文

摘要

本文讨论了AI代理基准测试中的“验证者税”概念,区分了安全成功(完成任务且不违反约束)与不安全成功(完成任务但违反约束),并质疑在考虑安全权衡的情况下如何正确衡量代理性能。

大多数AI代理基准测试只报告代理是否完成了任务。但对于使用工具的代理来说,这可能具有误导性。代理可以在完成任务的同时做出一些有问题的事情:使用错误的工具、跳过必要的审批步骤、泄露私人信息、违反工具政策,或者采取本应被系统阻止的行动。在我们最近的ACM CAIS 2026论文中,我们研究了这个问题,并将其称为**验证者税**。基本框架是:* **安全成功:** 代理完成任务且不违反约束 * **不安全成功:** 代理完成任务但违反约束 * **失败:** 代理未完成任务 有趣的权衡是,运行时检查/验证者可以减少不安全成功,但也会降低整体任务完成率。因此,一个系统可能变得更安全,但在传统的成功率指标上看起来“更差”。好奇构建代理的人对此有何看法:1. 你们目前是否衡量安全与不安全的任务完成情况?2. 在代理基准测试中,“不安全成功”应算作成功还是失败?3. 如果运行时验证者会降低任务完成率,它们是否值得权衡?4. 除任务成功率外,你们还使用哪些指标?
查看原文

相似文章

AI代理能完成任务但仍然算失败吗?

Reddit r/artificial

本文引入“验证税”(Verifier Tax)概念,将AI代理的结果分类为安全成功、不安全成功或失败,并为使用工具的LLM代理提出了一种双层验证架构。

验证者税:工具使用型LLM智能体中依赖于任务步数的安全与成功权衡 [R]

Reddit r/MachineLearning

本文提出了一个用于工具使用型LLM智能体的安全评估框架,引入了“验证者税(Verifier Tax)”的概念——一种依赖于任务步数的安全与任务完成之间的权衡。文章提出了一种双层验证架构,并使用Tau-bench场景展示了验证如何减少不安全成功,但随着任务步数增加也会降低任务完成率。

基准测试未衡量的:论自主智能体弃权能力的评估

arXiv cs.AI

本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。