标签
本文介绍了 LongMemEval-V2,这是一个用于评估 Web 智能体长期记忆系统的基准,同时提出了两种记忆方法:AgentRunbook-R 和 AgentRunbook-C。
Qwen 发布了 WebWorld,这是一个用于 Web Agent 的开源模型系列(8B/14B/32B),采用 Apache 2.0 许可证,在 MiniWob++ 和 WebArena 基准测试中提升了性能。
Apple Research 推出了 Weblica,这是一个利用 HTTP 缓存和基于大语言模型(LLM)的合成技术,为视觉 Web 智能体创建可扩展且可复现训练环境的框架。
本文介绍了 Region4Web 框架,该框架通过将观测空间组织成功能区域而非单个元素,从而提升了网络智能体的性能。研究表明,这种方法在 WebArena 基准测试上缩短了观测长度并提高了任务成功率。