在真实浏览器任务中测试AI代理后,我认为炒作超前于基础设施
摘要
作者在真实浏览器任务中测试了AI代理,发现由于基础设施限制,它们不可靠,主张为代理提供专用的浏览器运行时,而不是依赖当前为人类设计的浏览器。
在过去的几周里,我一直在尝试让Claude Code / Codex风格的代理处理真实的网页任务。不是玩具演示。而是人们最终希望代理完成的实际无聊任务:* 从X账号抓取近期主帖,排除转发/回复/置顶帖,然后按浏览量和互动排序 * 在LinkedIn上搜索远程全职代理开发者职位,打开公司招聘页面,上传简历,填写表格,在提交前停止 * 搜索Redfin房源,应用筛选条件,打开一个房产,更改抵押贷款计算器,提取估算月供 * 搜索Expedia航班,筛选直飞,选择有效航空公司,填写乘客信息,在支付前停止
曾有一刻,AI Twitter让我相信这些事基本上已经解决了。每个人都在发帖:“我的代理帮我预订一切”“我的代理在我睡觉时帮我申请工作”“我的代理能使用任何网站”“浏览器现在只是另一个工具”
所以我想超越简单的浏览。但现实呢?这些代理仍然:\> 丢失标签页 \> 在登录页面出错 \> 被动态UI搞糊涂 \> 将多步骤流程变成无尽的点击/观察循环 \> 当出现弹窗、重定向或过时的截图时失败
而且老实说,这开始**让人觉得我们把问题归咎于模型**,而问题其实来自浏览器层。Claude Code和Codex在代码库中已经相当有用。但网页不同。网站是有状态的、需要登录的、异步的、可视化的,并且充满了奇怪的边缘情况。当前的浏览器是为一个人、一个光标、一个活动标签页设计的,而不是为并行运行任务的代理设计的。
这让我意识到一个重要的事情:**AI代理不仅需要更好的推理能力**。**它们需要更好的浏览器环境。**
在我看来,有趣的方向不是“在Chrome里放一个聊天机器人”。而是给代理它们自己的浏览器运行时:隔离的空间、持久的登录会话、并行执行以及代码级别的编排,而不是脆弱的点击/输入/截图命令。
这也让我对这个领域的一些较新项目更感兴趣了。==ego lite似乎是将浏览器视为代理的基础设施,而不是人类的用户界面。这是否是正确的做法还有待观察,但它感觉比简单地添加更强的模型更接近解决可靠性问题。
相似文章
给我们的智能体添加4个工具后,评估成本增加了3倍。有人做过优化吗?
一名用户报告称,在为其AI智能体添加四个工具后,评估成本增加了两倍,寻求优化建议。
我们正在让Bunny DNS免费:因为更快的互联网不会自己建立
Bunny.net已将Bunny DNS免费化,取消了查询费用和最多500个域名的限制,旨在通过消除DNS查询计费,让更快的互联网更易访问。
AI代理的工具调用是否应在执行前进行检查?
讨论AI代理的工具调用是否应在执行前进行检查,探讨安全性和验证方面的考虑。
你在生产环境中到底允许 AI 代理做多少操作?
讨论关于 AI 代理在生产环境中权限范围的设定,以避免危险的数据库操作,建议使用只读镜像、审批步骤,或在建议与执行之间设置硬隔离。
数据中心噪音惹恼弗吉尼亚邻居:‘只想骂人’,弗吉尼亚一处数据中心的噪音让邻居们不得不在窗户上放置床垫和有机玻璃来阻挡。噪音来自为其供电的天然气涡轮机发出的高频嗡鸣,且24小时不间断。—— NewsNation
弗吉尼亚州的邻居们因当地数据中心天然气涡轮机持续发出的高频噪音而苦恼,不得不使用床垫和有机玻璃来隔音。