计算机操作比结构化API调用贵45倍

Reddit r/AI_Agents 工具

摘要

一项基准测试显示,完成相同任务时,计算机操作代理的成本是结构化API调用的45倍,主要原因是截图和多步骤产生的高令牌消耗。作者认为,对于状态暴露的内部工具,基于API的代理效率更高,并推广了Reflex 0.9——该版本可从应用处理器自动生成API。

嗨,r/AI_Agents,我最近作为公司功能发布的一部分,对计算机使用代理与API调用进行了基准测试。我想在此分享结果,因为这与本版块相关:大多数团队默认使用计算机使用代理,并不是因为它们便宜或准确,而是因为替代方案(为每个内部工具编写API)所需的工程工作量太大,不值得为团队可能拥有的20多个内部工具去做。但我认为跳过构建API是一个错误,尤其是当AI实验室越来越减少令牌补贴时。为了量化成本差异,我在同一个任务上运行了两个不同的代理,使用了一个React演示应用的Reflex移植版。一个代理是计算机使用代理,通过截图和点击驱动UI。另一个是工具调用代理,调用与按钮点击触发相同的处理器,并读取结构化响应而非渲染页面(之所以这样做,是因为这里测试的功能可以从事务处理器即时创建API)。当然,两边使用相同的模型。计算机使用代理进行了53步,消耗了551k输入令牌。工具调用代理进行了8次调用,消耗了12k令牌。(相差45倍)视觉代理还需要一个14步的逐步指南来命名每个侧边栏和标签页才能完成任务。天哪。部分原因是模型问题。视觉代理没有滚动,因此错过了页面下方的内容,如果使用更仔细提示或不同训练的模型,差距会缩小。但其余原因是结构性的。每张截图消耗数千个输入令牌,而要获取API代理在一次响应中读取的数据,需要渲染多个中间状态。更好的模型会降低每张截图的成本,但不会减少截图数量,因为截图数量由界面决定。DOM是渲染目标,不是数据层,随着模型改进,这部分成本不会消失。对于状态完全作为数据暴露的应用(即大多数人今天构建的内部工具),选择并非在两个有效方法之间。视觉代理仍然是适用于无法修改的第三方SaaS和遗留系统的正确工具。我进行这个测试是为了向我们的客户证明,他们为计算机使用付费是因为为每个应用构建API不值得工程努力,而我们的Reflex 0.9更新通过从应用处理器自动生成API使这种努力变为零。完整的文章,包括任务、提示、成本分解、代码、像素艺术等,放在评论中供好奇者查看。
查看原文

相似文章