计算机操作比结构化API调用贵45倍

Reddit r/AI_Agents 2026/05/18 19:30 工具

computer-use api-calls cost-comparison benchmark reflex tool-calling vision-agents

摘要

一项基准测试显示，完成相同任务时，计算机操作代理的成本是结构化API调用的45倍，主要原因是截图和多步骤产生的高令牌消耗。作者认为，对于状态暴露的内部工具，基于API的代理效率更高，并推广了Reflex 0.9——该版本可从应用处理器自动生成API。

嗨，r/AI_Agents，我最近作为公司功能发布的一部分，对计算机使用代理与API调用进行了基准测试。我想在此分享结果，因为这与本版块相关：大多数团队默认使用计算机使用代理，并不是因为它们便宜或准确，而是因为替代方案（为每个内部工具编写API）所需的工程工作量太大，不值得为团队可能拥有的20多个内部工具去做。但我认为跳过构建API是一个错误，尤其是当AI实验室越来越减少令牌补贴时。为了量化成本差异，我在同一个任务上运行了两个不同的代理，使用了一个React演示应用的Reflex移植版。一个代理是计算机使用代理，通过截图和点击驱动UI。另一个是工具调用代理，调用与按钮点击触发相同的处理器，并读取结构化响应而非渲染页面（之所以这样做，是因为这里测试的功能可以从事务处理器即时创建API）。当然，两边使用相同的模型。计算机使用代理进行了53步，消耗了551k输入令牌。工具调用代理进行了8次调用，消耗了12k令牌。（相差45倍）视觉代理还需要一个14步的逐步指南来命名每个侧边栏和标签页才能完成任务。天哪。部分原因是模型问题。视觉代理没有滚动，因此错过了页面下方的内容，如果使用更仔细提示或不同训练的模型，差距会缩小。但其余原因是结构性的。每张截图消耗数千个输入令牌，而要获取API代理在一次响应中读取的数据，需要渲染多个中间状态。更好的模型会降低每张截图的成本，但不会减少截图数量，因为截图数量由界面决定。DOM是渲染目标，不是数据层，随着模型改进，这部分成本不会消失。对于状态完全作为数据暴露的应用（即大多数人今天构建的内部工具），选择并非在两个有效方法之间。视觉代理仍然是适用于无法修改的第三方SaaS和遗留系统的正确工具。我进行这个测试是为了向我们的客户证明，他们为计算机使用付费是因为为每个应用构建API不值得工程努力，而我们的Reflex 0.9更新通过从应用处理器自动生成API使这种努力变为零。完整的文章，包括任务、提示、成本分解、代码、像素艺术等，放在评论中供好奇者查看。

查看原文

计算机操作比结构化API调用贵45倍

相似文章

@IntuitMachine：你的AI编程代理仅修复一个bug就烧掉2美元。你以为这是“廉价自动化”。以下是16,000次生产运行揭示的真相…

编程代理是否变得昂贵，还是我们对成本的衡量方式有误？

当我最终对智能体的工具调用进行监控时，成本分解让我感到惊讶。几点经验教训。

@ClementDelangue：令牌成本决定了不会有SaaS末日——优秀的开发工具是代理的缓存智能！流行的观…

测量了执行相同任务的4个代理运行时的令牌消耗。成本从1倍到4倍不等，取决于缓存架构

提交意见反馈