计算机操作比结构化API调用贵45倍
摘要
一项基准测试显示,完成相同任务时,计算机操作代理的成本是结构化API调用的45倍,主要原因是截图和多步骤产生的高令牌消耗。作者认为,对于状态暴露的内部工具,基于API的代理效率更高,并推广了Reflex 0.9——该版本可从应用处理器自动生成API。
嗨,r/AI_Agents,我最近作为公司功能发布的一部分,对计算机使用代理与API调用进行了基准测试。我想在此分享结果,因为这与本版块相关:大多数团队默认使用计算机使用代理,并不是因为它们便宜或准确,而是因为替代方案(为每个内部工具编写API)所需的工程工作量太大,不值得为团队可能拥有的20多个内部工具去做。但我认为跳过构建API是一个错误,尤其是当AI实验室越来越减少令牌补贴时。为了量化成本差异,我在同一个任务上运行了两个不同的代理,使用了一个React演示应用的Reflex移植版。一个代理是计算机使用代理,通过截图和点击驱动UI。另一个是工具调用代理,调用与按钮点击触发相同的处理器,并读取结构化响应而非渲染页面(之所以这样做,是因为这里测试的功能可以从事务处理器即时创建API)。当然,两边使用相同的模型。计算机使用代理进行了53步,消耗了551k输入令牌。工具调用代理进行了8次调用,消耗了12k令牌。(相差45倍)视觉代理还需要一个14步的逐步指南来命名每个侧边栏和标签页才能完成任务。天哪。部分原因是模型问题。视觉代理没有滚动,因此错过了页面下方的内容,如果使用更仔细提示或不同训练的模型,差距会缩小。但其余原因是结构性的。每张截图消耗数千个输入令牌,而要获取API代理在一次响应中读取的数据,需要渲染多个中间状态。更好的模型会降低每张截图的成本,但不会减少截图数量,因为截图数量由界面决定。DOM是渲染目标,不是数据层,随着模型改进,这部分成本不会消失。对于状态完全作为数据暴露的应用(即大多数人今天构建的内部工具),选择并非在两个有效方法之间。视觉代理仍然是适用于无法修改的第三方SaaS和遗留系统的正确工具。我进行这个测试是为了向我们的客户证明,他们为计算机使用付费是因为为每个应用构建API不值得工程努力,而我们的Reflex 0.9更新通过从应用处理器自动生成API使这种努力变为零。完整的文章,包括任务、提示、成本分解、代码、像素艺术等,放在评论中供好奇者查看。
相似文章
@IntuitMachine:你的AI编程代理仅修复一个bug就烧掉2美元。你以为这是“廉价自动化”。以下是16,000次生产运行揭示的真相…
对AI编程代理成本的分析显示,代理工作流消耗的token数可达简单ChatGPT调用的3500倍,大部分浪费来自冗余的上下文加载。文章建议追踪重复的文件操作并使用高效模型降低成本。
编程代理是否变得昂贵,还是我们对成本的衡量方式有误?
本文质疑编程代理的真实成本是否包含隐藏的人力监督和调试,认为真正的价值应以可信输出来衡量,而非原始 token 消耗。
当我最终对智能体的工具调用进行监控时,成本分解让我感到惊讶。几点经验教训。
作者分享了监控AI智能体工具调用的经验教训,揭示了像web_search这样的工具可能占支出的约50%,并强调了追踪p95延迟以及按工作流或客户归因成本的重要性,以避免意外。
@ClementDelangue:令牌成本决定了不会有SaaS末日——优秀的开发工具是代理的缓存智能!流行的观…
Hugging Face的hf CLI被证明远比手写原始API调用更高效、更成功,AI代理使用后基准测试显示令牌消耗减少多达6倍,任务成功率从84%提升至94%,这表明良好的抽象是代理的缓存智能。
测量了执行相同任务的4个代理运行时的令牌消耗。成本从1倍到4倍不等,取决于缓存架构
对四个代理运行时(Claude Code、OpenClaw、Hermes 和 OpenClacky)在相同任务上的令牌消耗进行比较显示,相对于 Claude Code,成本从0.8倍到4倍不等,这由缓存架构和工具模式设计的差异驱动。