标签
介绍了Ko-WideSearch,这是一个用于Web智能体的韩语广度搜索基准,在228个表格上评估穷举集合枚举能力。结果表明,智能体的项目召回率较高,但在行完成上存在困难,尤其是开放式的单元格。
本文介绍了 SkillMigrator,一个 LLM Web 代理,它通过匹配布局结构而非领域特定元数据来学习可复用技能并在网站间迁移这些技能,在 WebArena 和 Mind2Web 基准测试中将 LLM 操作次数减少了 8-10%。
本文介绍了SkillMigrator——一个能够学习可复用网页技能(作为可迁移交互模式,TIP)的代理,它通过匹配布局结构在不同网站间迁移技能,在基准测试中将LLM动作次数减少8-10%。
browser_use 团队在 Odysseys 基准测试中夺得第一名,这是一项针对长周期 Web 智能体的挑战性评估,其性能超越了 Opus 4.6 和 GPT-5.4 等模型。
本文研究了在固定推理预算下,网络代理的在线技能和记忆模块是否值得其令牌成本,发现预算匹配的朴素基线方法在三个领域和模型上通常与增强方法性能相当或更优。
本文介绍了WebDecept,一个用于将欺骗性界面模式注入到Web环境中以评估自主Web Agent安全性的框架。实验表明,当前的Agent极易受到此类操纵,突显了实际部署中的安全性挑战。
论文提出信号驱动观测(SDO)方法,使Web代理避免上下文退化,仅读取DOM中与任务相关的部分,并仅在特定信号触发时重新调用观测,而不是在每个动作步骤读取完整页面状态。
AsyncWebRL提出了一种异步多步强化学习系统,用于视觉语言Web代理,通过用常数替换每条轨迹的归一化项以减少轨迹长度低效问题,实现了高达2.9倍的训练加速,并在WebGym上取得了新的最优结果。
SlimSearcher 是一个框架,通过结合帕累托高效轨迹过滤和自适应奖励塑形,提升深度研究代理的效率,在 GAIA、BrowseComp 和 XBenchDeepSearch 等基准测试中,将工具调用轮次减少 17%-58%,同时保持准确率。
本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。
提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。
OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。
本文介绍了GTA,一个可扩展的框架,用于自动生成具有可执行轨迹的长时域、多跳Web智能体任务,解决了Web智能体基准测试中缺乏过程级监督的问题。该框架集成了爬取、基于检索的种子生成和自动质量控制,以在多个网站上产生现实的任务。
Google 在 Google I/O 上演示了 Chrome DevTools 与 AI 代理的新工作流,包括 WebMCP 和 HTML-in-Canvas 等 API,旨在让开发者轻松将网页功能暴露给 AI 代理,并保持语义、无障碍和安全边界。
DRIVE提出了一种双层技能建模框架,将推理知识与交互知识分离,用于持续学习下的Web智能体。该方法在WebArena上实现了52.8%的任务成功率,比无技能基线高出7.3个百分点。
Weasel是一种用于Web代理离线训练的轨迹选择方法,通过平衡重要性与多样性来提升域外泛化能力。该方法在多个基准测试中实现了高达12.5倍的训练加速并提升了性能。
Accio 是一种推测执行框架,通过利用离线站点结构分析和在线快速路径选择,降低网络代理的成本和延迟,实现每任务成本降低1.9倍,延迟降低33.4%,同时保持准确性。
ShopGym 是一个框架,它将实时的电子商务店面转换为自包含的沙盒商店,用于对网络代理进行真实、可控和可重复的基准测试,并包含涵盖七类技能的合成任务。
SimPersona 使用 VQ-VAE 从原始点击流中学习离散的买家画像,并将其映射为 LLM 驱动的网络代理的画像令牌,在多个在线商店中实现了高转化率对齐。
WebHarbor 将 15 个真实网站(Amazon、GitHub、BBC 等)打包为自包含的 Flask+SQLite 应用,置于单个 Docker 镜像中,支持亚秒级重置,专为可重复的网页智能体评估与训练而设计。该项目邀请社区贡献,以扩展到 100 多个网站,并提供合著机会。