我们开始衡量智能体工作流中的“未声明意图开销”
摘要
本文探讨了在智能体工作流中衡量“未声明意图开销”的方法,通过量化超出声明意图范围的计算Token消耗,揭示诸如行为漂移与偏离任务执行等行为成本。
本周在扩展内部工具时,我意外构建了一个自己没想到会如此重视的指标:*未声明意图开销*。思路很简单。如果一个智能体会话声明其目标为执行A,但后续的推理过程又触及了该声明意图之外的系统或执行路径,那么这部分工作究竟消耗了多少计算资源?某次会话的示例输出如下:
总计算量:5,137 tokens
未声明:1,173 tokens(22.8%)
已声明:3,964 tokens(77.2%)
这件事有趣的地方不在于治理术语或策略执行,而在于非预期的执行现在有了可量化的运营成本。重试耗费成本。循环耗费成本。推理漂移耗费成本。偏离任务执行也耗费成本。随着我深入排查智能体系统的时间越来越多,我越发觉得成本正在演变为一种“行为信号”,而不再仅仅是计费遥测数据。在构建该指标时,我们注意到一个细节:有时“未声明”确实反映了行为漂移,即智能体意外进入了本不应访问的系统。而有时则是运行时环境本身暴露的信息不足,无法清晰判断意图,此时的“未声明”实际上是“当前视角无法判定”。这一区分最终比预期的更重要,因为这两种故障模式需要截然不同的应对策略。很好奇其他在生产环境中部署智能体的团队是否也在用这种方式思考“偏离任务的计算开销”,还是说大多数团队仍然将Token消耗纯粹视为计费与优化问题。特别想了解是否有人尝试过对“漂移”进行具体量化,而不仅仅是用“账单涨了”来概括。
相似文章
当我最终对智能体的工具调用进行监控时,成本分解让我感到惊讶。几点经验教训。
作者分享了监控AI智能体工具调用的经验教训,揭示了像web_search这样的工具可能占支出的约50%,并强调了追踪p95延迟以及按工作流或客户归因成本的重要性,以避免意外。
你的AI代理在花钱吗?
探讨了AI代理自主花钱完成现实任务(如购买服务、预订资源、投放广告)而无需人类批准的趋势。
因为失控的 agent 浪费几百美元 API 额度,基本上已经成为一种入门仪式了。这是我的经历。
我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的 Phi
我测量了AI编程助手在哪些地方浪费token,发现42%可以避免。为此我开发了一个工具来捕捉这种情况(Claude Code / Cursor / Codex)
作者测量了AI编程助手中的token浪费情况,发现42%可以避免,随后开发了一个工具来捕捉这种情况。该工具支持Claude Code、Cursor和Codex。
子代理在长代理运行中占据大部分Token成本:实际可将使用量降低70%至90%的修复方法
本文分析了 Bai 等人 2026 年的论文,该论文表明,子代理和上下文膨胀导致长代理运行中的Token成本比普通聊天高出约1000倍,并提出了三种实用的修复方法(PLAN.md、读取预算、带外备注),可将Token使用量减少70-90%。