标签
本文提出了一个用于工具使用型LLM智能体的安全评估框架,引入了“验证者税(Verifier Tax)”的概念——一种依赖于任务步数的安全与任务完成之间的权衡。文章提出了一种双层验证架构,并使用Tau-bench场景展示了验证如何减少不安全成功,但随着任务步数增加也会降低任务完成率。
本文引入了'约束税'这一概念,即小语言模型中结构化输出约束导致的准确性损失,并提出了一种测量协议来量化有效性与正确性之间的权衡。