AI代理基准测试是否应区分“安全成功”与“不安全成功”？

Reddit r/AI_Agents 2026/06/14 01:45 论文

ai-agents benchmarks safety verifier-tax task-completion constraints

摘要

本文讨论了AI代理基准测试中的“验证者税”概念，区分了安全成功（完成任务且不违反约束）与不安全成功（完成任务但违反约束），并质疑在考虑安全权衡的情况下如何正确衡量代理性能。

大多数AI代理基准测试只报告代理是否完成了任务。但对于使用工具的代理来说，这可能具有误导性。代理可以在完成任务的同时做出一些有问题的事情：使用错误的工具、跳过必要的审批步骤、泄露私人信息、违反工具政策，或者采取本应被系统阻止的行动。在我们最近的ACM CAIS 2026论文中，我们研究了这个问题，并将其称为**验证者税**。基本框架是：* **安全成功：** 代理完成任务且不违反约束 * **不安全成功：** 代理完成任务但违反约束 * **失败：** 代理未完成任务有趣的权衡是，运行时检查/验证者可以减少不安全成功，但也会降低整体任务完成率。因此，一个系统可能变得更安全，但在传统的成功率指标上看起来“更差”。好奇构建代理的人对此有何看法：1. 你们目前是否衡量安全与不安全的任务完成情况？2. 在代理基准测试中，“不安全成功”应算作成功还是失败？3. 如果运行时验证者会降低任务完成率，它们是否值得权衡？4. 除任务成功率外，你们还使用哪些指标？

查看原文

AI代理基准测试是否应区分“安全成功”与“不安全成功”？

相似文章

AI代理能完成任务但仍然算失败吗？

验证者税：工具使用型LLM智能体中依赖于任务步数的安全与成功权衡 [R]

基准测试未衡量的：论自主智能体弃权能力的评估

好的基准

一个好的AI代理技能安全扫描器基准测试应该包含什么？

提交意见反馈