标签
本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。
A comparison of Midscene and Browser-Use, two open-source tools with different focuses: Browser-Use is a web agent for one-time tasks, while Midscene is a vision SDK designed for reliable multi-platform repeated execution.
作者认为,AI智能体在真实网页任务中失败并非因为模型能力弱,而是因为浏览器是为人类设计的,缺乏供智能体使用的隔离、可编程工作空间。
这是Playwright的一个分支,每次会话生成唯一的浏览器指纹,使AI代理能够在网上不被察觉地浏览。该项目完全开源,基于MIT许可证。
Mini Browser 是一个面向AI代理的浏览器命令行工具,它允许AI代理通过类Unix命令控制浏览器,实现导航、抓取、截图、填写表单等操作。
作者指出,不可靠 AI Agent 的隐性成本在于持续人工监控所带来的认知开销,并强调在实际落地中,可预测性与环境稳定性远比模型的原始智能更重要。当 Agent 运行在受控且经过验证的环境中,而非充满不确定性的环境时,实际工作流的效率将得到显著提升。
OpenAI 发布了 Codex 的新 Chrome 扩展,使人工智能能够直接在浏览器环境中处理基于浏览器的任务,例如调试流程、检查仪表盘、进行研究以及更新 CRM。
利用 Claude Code、Cursor、OpenCode、OpenClaw 等 AI 编程助手,在没有 API 的网站上实现任务自动化的技巧。