因为失控的 agent 浪费几百美元 API 额度,基本上已经成为一种入门仪式了。这是我的经历。
摘要
我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的 Phi
我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的哲学家给抢了。第三次发生这种事之后,我不再感到恼火,而是开始好奇:agent 在这种循环里到底在想什么?我能实时看到吗?能在周一账单到来之前发现吗?于是我建了一个仪表盘。它后来变成了 agent 工作内存的实时 3D 可视化,并且我特意设计了颜色编码,因为我想一眼就能看出发生了什么。
以下是颜色的含义——这部分我花了最长时间才做对,而且我还没见过其他人用这种方式来呈现。
节点(node)代表 agent 持有的信念。节点的颜色表示其健康度。亮绿色意味着信念是新鲜的,正被积极用于推理。柔和的蓝色表示它较旧但仍相关。灰色表示它正在衰减,下次清理时很可能会被遗忘。
边(edge)代表 agent 在不同事实之间建立的关联。当 agent 交叉引用两个信念来做决策时,边会轻轻脉动。一个紧密的簇反复脉动相同的边,就是循环的视觉特征——远在账单提醒你之前,你就能看到它。
整个图还会叠加一层色调。绿色表示健康。黄色表示“agent 开始想太多了,留意一下”。橙色表示反复自我引用,很可能正在循环。红色表示立刻停止 agent,它已经耗尽了推理预算,不再有任何进展。红色——如果当时有这个工具在运行——本来可以帮我省下那个 47 美元的周末。
有一件事我没想到:循环中的 agent 看起来并不混乱,反而很平静。三四个节点组成的小簇,相同的两条边轮流转动,像一个小小的轨道。第一次我用颜色回放真实的循环时,我才明白为什么看日志没能发现它。日志看起来很忙。图看起来很无聊。
这件事我已经琢磨了几个星期,越来越确信 agent 可观测性(agent observability)即将成为一个独立的品类。过去十年我们在研究如何监控微服务。接下来十年我们要研究如何监控 agent,而且我觉得它看起来会和前者完全不同。
好了,我说得够多了。真心想听听大家的“入门仪式”故事。你们遇到过最蠢的自主 agent 吃光 API 预算的方式是什么?评论区互相安慰。[www.octopodas.com](http://www.octopodas.com) 非常期待大家的反馈!
相似文章
运行一个全天候AI智能体开发团队:按角色分配不同LLM(Claude/Kimi/MiniMax/GPT),避免每月约2000美元的API费用。设置与常见故障点。
作者描述了一种设置,将不同的AI模型分配给特定角色(规划、编码、审查),以降低全天候自主工程团队的API成本,并分享了常见的故障点,如模型偏离任务和幻觉式所有权归属。
我昨晚让一个自主智能体运行着。醒来时发现一团糟。
一位开发者讲述了一个噩梦般的场景:一个自主智能体陷入了循环,进行了数千次API调用,耗尽了账户余额。这篇文章强调了依赖人类级别的速率限制来对抗机器速度故障的危险,并向社区寻求保护钱包免受失控智能体侵害的建议。
@PrajwalTomar_: 老铁,这种事我见过太多次了。有人构建了 AI agent,部署上线,感觉自己是个天才。3 天后它却……
该帖强调了监控已部署 AI agent 的重要性,以防止造成高昂成本的无限循环和意外支出。
当我最终对智能体的工具调用进行监控时,成本分解让我感到惊讶。几点经验教训。
作者分享了监控AI智能体工具调用的经验教训,揭示了像web_search这样的工具可能占支出的约50%,并强调了追踪p95延迟以及按工作流或客户归因成本的重要性,以避免意外。
运行AI代理最昂贵的部分不是令牌消耗,而是花在弄清楚它们行为原因的时间。
构建AI代理的过程揭示,主要成本在于调试——花费数周追踪诸如上游API变更等问题——而不仅仅是令牌或模型推理成本。