验证者税：工具使用型LLM智能体中依赖于任务步数的安全与成功权衡 [R]

Reddit r/MachineLearning 2026/06/14 02:09 论文

safety tool-use llm-agents verification evaluation tradeoff

摘要

本文提出了一个用于工具使用型LLM智能体的安全评估框架，引入了“验证者税（Verifier Tax）”的概念——一种依赖于任务步数的安全与任务完成之间的权衡。文章提出了一种双层验证架构，并使用Tau-bench场景展示了验证如何减少不安全成功，但随着任务步数增加也会降低任务完成率。

我们最近在ACM CAIS 2026上展示了一篇关于工具使用型LLM智能体安全评估的论文。核心问题在于，仅凭任务完成可能具有误导性：智能体可能在完成任务的同时违反安全或策略约束。我们将结果分为**安全成功**、**不安全成功**和**失败**，并研究验证如何改变这种权衡。我们使用**τ-bench / Tau-bench**工具使用场景进行评估，并提出了一种**双层验证架构**：首先进行确定性策略/工具检查，然后使用基于LLM的验证器处理更具上下文的安全情况。主要发现是，验证可以减少不安全成功，但随着任务步数增加，它也会降低任务完成率。这就产生了我们所说的**验证者税（Verifier Tax）**：工具使用型智能体中依赖于任务步数的安全与成功权衡。论文链接：[https://dl.acm.org/doi/full/10.1145/3786335.3813160](https://dl.acm.org/doi/full/10.1145/3786335.3813160) 很好奇其他人认为智能体评估应该如何报告不安全成功。不安全完成应该算作成功、失败，还是单独分类？

查看原文

相似文章

AI代理能完成任务但仍然算失败吗？

Reddit r/artificial

本文引入“验证税”（Verifier Tax）概念，将AI代理的结果分类为安全成功、不安全成功或失败，并为使用工具的LLM代理提出了一种双层验证架构。

LLM代理中的忠实不确定性：实践中校准与效用权衡

Reddit r/MachineLearning

一位从业者讨论了LLM代理中的校准与效用权衡，分享了基于验证器的流水线经验，该流水线将幻觉工具调用减少了约60%，但引入了延迟成本并丢失了简单的正确答案。

AI代理基准测试是否应区分“安全成功”与“不安全成功”？

Reddit r/AI_Agents

本文讨论了AI代理基准测试中的“验证者税”概念，区分了安全成功（完成任务且不违反约束）与不安全成功（完成任务但违反约束），并质疑在考虑安全权衡的情况下如何正确衡量代理性能。

Contract2Tool：学习前提与效果以实现可靠的工具增强型LLM代理

arXiv cs.AI

本文介绍了Contract2Tool，一个从工具元数据、文档和执行轨迹中自动推断轻量级工具契约（前提条件、效果、风险）的框架，为LLM代理实现可靠的因果工具过滤。实验表明，学习到的契约在下游多步骤代理任务中达到了接近黄金契约的性能，同时显著减少了token使用量。

论经验驱动自演化智能体的安全风险

arXiv cs.CL

# 论经验驱动自演化智能体的安全风险来源：[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要经验驱动型自演化已成为一项极具前景的范式