标签
作者认为,AI智能体在真实网页任务中失败并非因为模型能力弱,而是因为浏览器是为人类设计的,缺乏供智能体使用的隔离、可编程工作空间。
文章批评了当前浏览器AI代理的低效率,因为它们反复解析和推理相同的网站,并提出了一种模型,代理可以重用经过验证的交互路径,以减少代币消耗并提高速度。
微软推出了Fara1.5系列小型浏览器代理(4B、9B、27B),在计算机使用基准测试中取得了最先进的性能,在Online-Mind2Web上得分63%,并超越了Operator和Gemini等更大规模的模型。
作者解释了为什么他们不再使用基于浏览器的LLM代理来浏览Hacker News,而是构建了一个插件(MediaUse),直接获取结构化数据,从而节省令牌,并将模型的重点放在分析而非导航上。
讨论了当前使用无头Chrome加AI层的浏览器代理的架构问题,并介绍了Opera Neon的命令行界面作为替代方案,将AI集成到浏览器中,从而降低令牌开销并提高理解能力。
作者观察到,浏览器代理已从华而不实的演示演变为可靠地执行研究、更新表格、完成工作流等任务,标志着从助手到操作员的转变。
本文证明,网站可以通过分析浏览代理的行为模式和时序数据,识别其背后的大语言模型,在14个前沿LLM上实现了高达96%的F1分数。本文正式定义了这一攻击面,并表明随机时序延迟不足以阻止识别。