我基准测试了AI代理读取原始HTML有多糟糕。差距比我预想的要大。

Reddit r/AI_Agents 新闻

摘要

一项实验比较了AI代理在读取原始HTML与结构化格式时的准确性和代币成本;原始HTML的代币成本是两倍,准确性更低。

如今大多数代理访问网页时,接收到的300KB标记是为人眼设计的——导航、页脚、跟踪脚本、样式噪音——然后它们必须猜测实际需要的三个事实:价格、可用性、某个操作是否收费。它们消耗代币解析展示信息,但仍然出错。我想知道实际情况有多糟糕,于是通过测量而不是猜测来验证。测试:针对一个产品页面提出20个事实提取问题,通过真实的LLM调用。同一页面,两种格式。\- 原始HTML:91%准确率,684个代币\- 结构化的代理可读格式:100%准确率,约一半的代币。准确性差距并没有让我太惊讶,但代币成本出乎意料。代理为读取页面的较差版本支付双倍代价。这让我深入研究了为其构建契约层的方法——一种让网站在其普通HTML之外暴露类型化、机器原生视图的方式:页面上的实体,加上类型化操作契约(此操作是否收费、是否可逆、副作用是什么、是否需要确认)。HTML保持不变供浏览器渲染;代理获得一个干净的端点。我很好奇其他人在这里是如何处理的。你们是在模型接收之前预处理HTML,使用可读性提取器,还是其他方法?生产中什么方法对你们有效?
查看原文

相似文章

@trq212: https://x.com/trq212/status/2052809885763747935

X AI KOLs Following

该文章认为,与Markdown相比,HTML是AI智能体更优越的输出格式,因为它具有更丰富的信息密度、视觉清晰度、易于分享和双向交互,并分享了作者及Claude Code团队其他成员偏爱HTML的原因。

你的OpenClaw AI代理是不是在疯狂消耗代币?

Reddit r/AI_Agents

文章批评了当前浏览器AI代理的低效率,因为它们反复解析和推理相同的网站,并提出了一种模型,代理可以重用经过验证的交互路径,以减少代币消耗并提高速度。