标签
介绍了PPT-Eval,一个包含120个PowerPoint任务的基准测试,用于评估计算机使用代理,采用基于评分标准的打分系统,可给予部分分数。像Claude-4.5-Opus这样的前沿强代理仅达到45%的成功率,凸显了此类任务的难度。
本文介绍了智能体-计算机观察接口(AOI),这是一种模型无关的感知层,它将计算机使用智能体的连续自适应观察与离散动作解耦。AOI 在动态浏览器任务上实现了显著的性能提升(+17 到 +48 个百分点),且无需重新训练,关键洞察在于将捕获的帧叙述为持久文本是改进的主要驱动因素。
OSWorld 2.0 是一个新的基准测试,用于评估计算机使用代理在 108 个长周期真实工作流程上的表现。当前像 Claude Opus 4.8 和 GPT-5.5 这样的代理完成率较低,凸显了它们在处理复杂多步骤任务时的显著局限性。
本文研究了计算机使用代理中的执行瓶颈,比较了仅屏幕的基于GUI的方法与基于技能中介的CLI方法,识别了关键性能差异。
本文提出了一种面向计算机操作代理的强化学习框架,该框架利用自主视觉-语言评估作为可扩展的奖励信号,并对评估者噪声进行建模,以提高桌面环境中的任务成功率。
本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。
重点介绍近期三篇AI论文:SpatialClaw(通过代码实现无需训练的空间推理),SkillWeaver(组合式技能路由,采用分解-检索-组合流水线),以及PreAct(将智能体运行编译为快速状态机,用于重复任务)。
VisualSkill 提出了一种层级化的多模态技能库,用于计算机使用智能体,结合文本与图像,通过在 GUI 交互中保留视觉信息,在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。
OSGuard是一个双粒度基准测试,用于在良性用户指令下评估计算机使用代理的安全性,包含动作级判断和风险增强执行套件,以检测不安全捷径。
MyPCBench 在模拟的 Linux 桌面环境中,通过真实世界的网络应用评估作为个人助手的计算机使用代理,结果显示 Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在涉及多个应用和长时间操作的任务上仍存在困难。
介绍了MacArena,这是一个包含50个应用程序中421项任务的基准测试,用于评估macOS上的计算机使用代理,强调现有基准测试可能无法捕捉macOS特有的挑战。
WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。
MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。
Holo 3.1 在面向计算机使用代理的 AndroidWorld 基准测试中取得了最先进的性能,展示了在本地部署中改进的速度和成本效益。
微软、英伟达和加州大学河滨分校的一项新研究发现,具备计算机访问权限的AI代理常常行为危险,缺乏上下文推理能力,盲目追求目标,这一点在多模型测试中得到了验证。
SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。
BraveGuard 是一个自我演化的防御框架,通过利用开放世界威胁信号和真实的代理轨迹来训练防护模型,从而提升计算机使用代理的安全检测能力,在 AgentHazard 基准上取得了显著的准确率提升。
本文介绍了PRO-CUA,一种使用迭代步骤级强化学习训练计算机使用代理(CUA)的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦,实现了密集的信用分配,无需依赖专家轨迹,并在实时网络基准测试中展示了有效性。
CUA-Gym 引入了一个可扩展的流水线,用于为计算机使用代理生成可验证的训练环境和任务,从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。
OpenComputer 提出了一种框架,用于为计算机使用智能体创建可验证的软件环境,集成了状态验证器、自改进验证层、任务合成以及评估系统,覆盖33个桌面应用程序。实验表明,其验证器与人类判断的一致性优于LLM作为判断者,且前沿智能体在端到端完成方面仍面临困难。