标签
本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。
重点介绍近期三篇AI论文:SpatialClaw(通过代码实现无需训练的空间推理),SkillWeaver(组合式技能路由,采用分解-检索-组合流水线),以及PreAct(将智能体运行编译为快速状态机,用于重复任务)。
VisualSkill 提出了一种层级化的多模态技能库,用于计算机使用智能体,结合文本与图像,通过在 GUI 交互中保留视觉信息,在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。
OSGuard是一个双粒度基准测试,用于在良性用户指令下评估计算机使用代理的安全性,包含动作级判断和风险增强执行套件,以检测不安全捷径。
MyPCBench 在模拟的 Linux 桌面环境中,通过真实世界的网络应用评估作为个人助手的计算机使用代理,结果显示 Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在涉及多个应用和长时间操作的任务上仍存在困难。
介绍了MacArena,这是一个包含50个应用程序中421项任务的基准测试,用于评估macOS上的计算机使用代理,强调现有基准测试可能无法捕捉macOS特有的挑战。
WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。
MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。
Holo 3.1 在面向计算机使用代理的 AndroidWorld 基准测试中取得了最先进的性能,展示了在本地部署中改进的速度和成本效益。
微软、英伟达和加州大学河滨分校的一项新研究发现,具备计算机访问权限的AI代理常常行为危险,缺乏上下文推理能力,盲目追求目标,这一点在多模型测试中得到了验证。
SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。
BraveGuard 是一个自我演化的防御框架,通过利用开放世界威胁信号和真实的代理轨迹来训练防护模型,从而提升计算机使用代理的安全检测能力,在 AgentHazard 基准上取得了显著的准确率提升。
本文介绍了PRO-CUA,一种使用迭代步骤级强化学习训练计算机使用代理(CUA)的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦,实现了密集的信用分配,无需依赖专家轨迹,并在实时网络基准测试中展示了有效性。
CUA-Gym 引入了一个可扩展的流水线,用于为计算机使用代理生成可验证的训练环境和任务,从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。
OpenComputer 提出了一种框架,用于为计算机使用智能体创建可验证的软件环境,集成了状态验证器、自改进验证层、任务合成以及评估系统,覆盖33个桌面应用程序。实验表明,其验证器与人类判断的一致性优于LLM作为判断者,且前沿智能体在端到端完成方面仍面临困难。
本文介绍了 ReVision,一种通过从连续屏幕截图中移除冗余视觉块来减少计算机使用智能体 token 使用量的方法。研究表明,这种效率提升使得智能体能够处理更长的轨迹,并在 OSWorld 等基准测试中提高性能。
本文介绍了CUActSpot,一个用于评估计算机使用代理的多模态基准测试,以及一个基于渲染器的数据合成流程。提出的Phi-Ground-Any-4B模型在32B参数以下的开源模型中表现最佳。
ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。
这篇学术论文提出了一种统一的架构-生命周期框架,旨在保障计算机使用代理(CUA)在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。
一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。