web-agents

#web-agents

Ko-WideSearch：用于Web智能体穷举集合枚举的韩语广度搜索基准

arXiv cs.CL ↗ · 6天前缓存

介绍了Ko-WideSearch，这是一个用于Web智能体的韩语广度搜索基准，在228个表格上评估穷举集合枚举能力。结果表明，智能体的项目召回率较高，但在行完成上存在困难，尤其是开放式的单元格。

0 人收藏 0 人点赞

#web-agents

@dair_ai: 如果你在构建 Web 代理，这篇关于如何让代理技能可复用的文章值得你花时间阅读。（收藏它）LLM web…

X AI KOLs Following ↗ · 2026-06-18 缓存

本文介绍了 SkillMigrator，一个 LLM Web 代理，它通过匹配布局结构而非领域特定元数据来学习可复用技能并在网站间迁移这些技能，在 WebArena 和 Mind2Web 基准测试中将 LLM 操作次数减少了 8-10%。

0 人收藏 0 人点赞

#web-agents

超越域名：通过可迁移交互模式复用网页技能

arXiv cs.AI ↗ · 2026-06-17 缓存

本文介绍了SkillMigrator——一个能够学习可复用网页技能（作为可迁移交互模式，TIP）的代理，它通过匹配布局结构在不同网站间迁移技能，在基准测试中将LLM动作次数减少8-10%。

0 人收藏 0 人点赞

#web-agents

@rsalakhu: 恭喜 @browser_use 团队在 Odysseys（一项极具挑战性的长周期 Web 智能体基准测试）中夺得第一名…

X AI KOLs Following ↗ · 2026-06-16 缓存

browser_use 团队在 Odysseys 基准测试中夺得第一名，这是一项针对长周期 Web 智能体的挑战性评估，其性能超越了 Opus 4.6 和 GPT-5.4 等模型。

0 人收藏 0 人点赞

#web-agents

在线技能与记忆模块是否总是值得其令牌消耗？一项关于网络代理的预算受限研究

arXiv cs.CL ↗ · 2026-06-16 缓存

本文研究了在固定推理预算下，网络代理的在线技能和记忆模块是否值得其令牌成本，发现预算匹配的朴素基线方法在三个领域和模型上通常与增强方法性能相当或更优。

0 人收藏 0 人点赞

#web-agents

电商欺骗性界面下的Web Agent安全性基准测试

arXiv cs.CL ↗ · 2026-06-15 缓存

本文介绍了WebDecept，一个用于将欺骗性界面模式注入到Web环境中以评估自主Web Agent安全性的框架。实验表明，当前的Agent极易受到此类操纵，突显了实际部署中的安全性挑战。

0 人收藏 0 人点赞

#web-agents

长时域Web代理的信号驱动观测

arXiv cs.CL ↗ · 2026-06-08 缓存

论文提出信号驱动观测（SDO）方法，使Web代理避免上下文退化，仅读取DOM中与任务相关的部分，并仅在特定信号触发时重新调用观测，而不是在每个动作步骤读取完整页面状态。

0 人收藏 0 人点赞

#web-agents

AsyncWebRL：面向视觉Web代理的高效多步强化学习

arXiv cs.LG ↗ · 2026-06-05 缓存

AsyncWebRL提出了一种异步多步强化学习系统，用于视觉语言Web代理，通过用常数替换每条轨迹的归一化项以减少轨迹长度低效问题，实现了高达2.9倍的训练加速，并在WebGym上取得了新的最优结果。

0 人收藏 0 人点赞

#web-agents

SlimSearcher：通过自适应奖励门控训练效率感知的网络代理

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

SlimSearcher 是一个框架，通过结合帕累托高效轨迹过滤和自适应奖励塑形，提升深度研究代理的效率，在 GAIA、BrowseComp 和 XBenchDeepSearch 等基准测试中，将工具调用轮次减少 17%-58%，同时保持准确率。

0 人收藏 0 人点赞

#web-agents

基于状态感知动态检索的Web智能体在线技能学习

arXiv cs.AI ↗ · 2026-06-04 缓存

本文提出了SGDR（State-Grounded Dynamic Retrieval，状态感知动态检索），一种面向Web智能体的在线技能学习方法，支持逐步、感知当前状态的技能复用，而非静态的任务级检索。在WebArena上的实验表明，SGDR结合GPT-4.1可达到37.5%的成功率，相较于强基线取得了约10.6%的相对提升。

0 人收藏 0 人点赞

#web-agents

学习适应：基于认知感知探索的自我改进网络智能体

arXiv cs.AI ↗ · 2026-06-01 缓存

提出了SCALE框架，用于自我改进的网络智能体，采用认知感知探索，包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k，显著提升了基于MLLM的网络智能体的性能。

0 人收藏 0 人点赞

#web-agents

OpenWebRL：揭秘面向视觉网页代理的在线多轮强化学习

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

OpenWebRL提出了一个开放框架，用于在真实网站上利用在线多轮强化学习训练视觉网页代理，以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理，并与OpenAI CUA和Gemini CUA等专有系统竞争。

0 人收藏 0 人点赞

#web-agents

GTA: 大规模生成Web智能体的长时域任务

arXiv cs.AI ↗ · 2026-05-29 缓存

本文介绍了GTA，一个可扩展的框架，用于自动生成具有可执行轨迹的长时域、多跳Web智能体任务，解决了Web智能体基准测试中缺乏过程级监督的问题。该框架集成了爬取、基于检索的种子生成和自动质量控制，以在多个网站上产生现实的任务。

0 人收藏 0 人点赞

#web-agents

@googledevs: Modern Web Guidance + Chrome DevTools for agents = A powerful new workflow. Matthias Rohmer takes you inside the #Googl…

X AI KOLs Following ↗ · 2026-05-26 缓存

Google 在 Google I/O 上演示了 Chrome DevTools 与 AI 代理的新工作流，包括 WebMCP 和 HTML-in-Canvas 等 API，旨在让开发者轻松将网页功能暴露给 AI 代理，并保持语义、无障碍和安全边界。

0 人收藏 0 人点赞

#web-agents

DRIVE：在持续学习环境下为Web智能体建模推理与交互层面的技能

arXiv cs.AI ↗ · 2026-05-26 缓存

DRIVE提出了一种双层技能建模框架，将推理知识与交互知识分离，用于持续学习下的Web智能体。该方法在WebArena上实现了52.8%的任务成功率，比无技能基线高出7.3个百分点。

0 人收藏 0 人点赞

#web-agents

Weasel：基于重要性与多样性的数据选择实现Web代理的域外泛化

arXiv cs.LG ↗ · 2026-05-21 缓存

Weasel是一种用于Web代理离线训练的轨迹选择方法，通过平衡重要性与多样性来提升域外泛化能力。该方法在多个基准测试中实现了高达12.5倍的训练加速并提升了性能。

0 人收藏 0 人点赞

#web-agents

Skim：用于快速高效网络代理的推测执行框架

arXiv cs.AI ↗ · 2026-05-19 缓存

Accio 是一种推测执行框架，通过利用离线站点结构分析和在线快速路径选择，降低网络代理的成本和延迟，实现每任务成本降低1.9倍，延迟降低33.4%，同时保持准确性。

0 人收藏 0 人点赞

#web-agents

ShopGym：一个用于电子商务网络代理的现实模拟和可扩展基准测试的集成框架

arXiv cs.AI ↗ · 2026-05-18 缓存

ShopGym 是一个框架，它将实时的电子商务店面转换为自包含的沙盒商店，用于对网络代理进行真实、可控和可重复的基准测试，并包含涵盖七类技能的合成任务。

0 人收藏 0 人点赞

#web-agents

SimPersona：从原始点击流学习离散买家画像以构建接地气的电商代理

arXiv cs.AI ↗ · 2026-05-15 缓存

SimPersona 使用 VQ-VAE 从原始点击流中学习离散的买家画像，并将其映射为 LLM 驱动的网络代理的画像令牌，在多个在线商店中实现了高转化率对齐。

0 人收藏 0 人点赞

#web-agents

WebHarbor - 我们将真实网站“对接”到本地，供网页代理使用！[R]

Reddit r/MachineLearning ↗ · 2026-05-14

WebHarbor 将 15 个真实网站（Amazon、GitHub、BBC 等）打包为自包含的 Flask+SQLite 应用，置于单个 Docker 镜像中，支持亚秒级重置，专为可重复的网页智能体评估与训练而设计。该项目邀请社区贡献，以扩展到 100 多个网站，并提供合著机会。

0 人收藏 0 人点赞

web-agents

提交意见反馈