我们开始衡量智能体工作流中的“未声明意图开销”

Reddit r/AI_Agents 2026/05/11 17:21 新闻

摘要

本文探讨了在智能体工作流中衡量“未声明意图开销”的方法，通过量化超出声明意图范围的计算Token消耗，揭示诸如行为漂移与偏离任务执行等行为成本。

本周在扩展内部工具时，我意外构建了一个自己没想到会如此重视的指标：*未声明意图开销*。思路很简单。如果一个智能体会话声明其目标为执行A，但后续的推理过程又触及了该声明意图之外的系统或执行路径，那么这部分工作究竟消耗了多少计算资源？某次会话的示例输出如下：总计算量：5,137 tokens 未声明：1,173 tokens（22.8%）已声明：3,964 tokens（77.2%）这件事有趣的地方不在于治理术语或策略执行，而在于非预期的执行现在有了可量化的运营成本。重试耗费成本。循环耗费成本。推理漂移耗费成本。偏离任务执行也耗费成本。随着我深入排查智能体系统的时间越来越多，我越发觉得成本正在演变为一种“行为信号”，而不再仅仅是计费遥测数据。在构建该指标时，我们注意到一个细节：有时“未声明”确实反映了行为漂移，即智能体意外进入了本不应访问的系统。而有时则是运行时环境本身暴露的信息不足，无法清晰判断意图，此时的“未声明”实际上是“当前视角无法判定”。这一区分最终比预期的更重要，因为这两种故障模式需要截然不同的应对策略。很好奇其他在生产环境中部署智能体的团队是否也在用这种方式思考“偏离任务的计算开销”，还是说大多数团队仍然将Token消耗纯粹视为计费与优化问题。特别想了解是否有人尝试过对“漂移”进行具体量化，而不仅仅是用“账单涨了”来概括。

查看原文

我们开始衡量智能体工作流中的“未声明意图开销”

相似文章

当我最终对智能体的工具调用进行监控时，成本分解让我感到惊讶。几点经验教训。

你的AI代理在花钱吗？

因为失控的 agent 浪费几百美元 API 额度，基本上已经成为一种入门仪式了。这是我的经历。

我测量了AI编程助手在哪些地方浪费token，发现42%可以避免。为此我开发了一个工具来捕捉这种情况（Claude Code / Cursor / Codex）

子代理在长代理运行中占据大部分Token成本：实际可将使用量降低70%至90%的修复方法

提交意见反馈