我们开始衡量智能体工作流中的“未声明意图开销”

Reddit r/AI_Agents 新闻

摘要

本文探讨了在智能体工作流中衡量“未声明意图开销”的方法,通过量化超出声明意图范围的计算Token消耗,揭示诸如行为漂移与偏离任务执行等行为成本。

本周在扩展内部工具时,我意外构建了一个自己没想到会如此重视的指标:*未声明意图开销*。思路很简单。如果一个智能体会话声明其目标为执行A,但后续的推理过程又触及了该声明意图之外的系统或执行路径,那么这部分工作究竟消耗了多少计算资源?某次会话的示例输出如下: 总计算量:5,137 tokens 未声明:1,173 tokens(22.8%) 已声明:3,964 tokens(77.2%) 这件事有趣的地方不在于治理术语或策略执行,而在于非预期的执行现在有了可量化的运营成本。重试耗费成本。循环耗费成本。推理漂移耗费成本。偏离任务执行也耗费成本。随着我深入排查智能体系统的时间越来越多,我越发觉得成本正在演变为一种“行为信号”,而不再仅仅是计费遥测数据。在构建该指标时,我们注意到一个细节:有时“未声明”确实反映了行为漂移,即智能体意外进入了本不应访问的系统。而有时则是运行时环境本身暴露的信息不足,无法清晰判断意图,此时的“未声明”实际上是“当前视角无法判定”。这一区分最终比预期的更重要,因为这两种故障模式需要截然不同的应对策略。很好奇其他在生产环境中部署智能体的团队是否也在用这种方式思考“偏离任务的计算开销”,还是说大多数团队仍然将Token消耗纯粹视为计费与优化问题。特别想了解是否有人尝试过对“漂移”进行具体量化,而不仅仅是用“账单涨了”来概括。
查看原文

相似文章

你的AI代理在花钱吗?

Reddit r/AI_Agents

探讨了AI代理自主花钱完成现实任务(如购买服务、预订资源、投放广告)而无需人类批准的趋势。

因为失控的 agent 浪费几百美元 API 额度,基本上已经成为一种入门仪式了。这是我的经历。

Reddit r/artificial

我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的 Phi