标签
本文介绍了 ReVision,一种通过从连续屏幕截图中移除冗余视觉块来减少计算机使用智能体 token 使用量的方法。研究表明,这种效率提升使得智能体能够处理更长的轨迹,并在 OSWorld 等基准测试中提高性能。
本文介绍了CUActSpot,一个用于评估计算机使用代理的多模态基准测试,以及一个基于渲染器的数据合成流程。提出的Phi-Ground-Any-4B模型在32B参数以下的开源模型中表现最佳。
ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。
这篇学术论文提出了一种统一的架构-生命周期框架,旨在保障计算机使用代理(CUA)在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。
一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。
介绍了FaraGen——一种用于计算机使用智能体的合成数据生成系统,以及Fara-7B——一个体积小但效率高的模型,在网页任务基准测试中优于更大规模的模型。该模型已在Microsoft Foundry和HuggingFace上以开放权重形式发布。
Agent S2 是一种新型的计算机使用智能体组合式框架,通过采用混合定位(Mixture-of-Grounding)与主动分层规划(Proactive Hierarchical Planning)技术,在多个基准测试中达到了最先进的性能。
trycua/cua 是一个开源工具包和 Python 库,用于构建、基准测试和部署计算机操作代理,具备 macOS 后台自动化功能和跨平台、代理就绪的沙箱。