computer-use-agents

#computer-use-agents

PPT-Eval：面向PowerPoint任务的计算机使用代理基准测试

arXiv cs.LG ↗ · 4天前缓存

介绍了PPT-Eval，一个包含120个PowerPoint任务的基准测试，用于评估计算机使用代理，采用基于评分标准的打分系统，可给予部分分数。像Claude-4.5-Opus这样的前沿强代理仅达到45%的成功率，凸显了此类任务的难度。

0 人收藏 0 人点赞

#computer-use-agents

智能体-计算机观察接口实现动态计算机使用

arXiv cs.AI ↗ · 5天前缓存

本文介绍了智能体-计算机观察接口（AOI），这是一种模型无关的感知层，它将计算机使用智能体的连续自适应观察与离散动作解耦。AOI 在动态浏览器任务上实现了显著的性能提升（+17 到 +48 个百分点），且无需重新训练，关键洞察在于将捕获的帧叙述为持久文本是改进的主要驱动因素。

0 人收藏 0 人点赞

#computer-use-agents

OSWorld2.0：长周期真实世界任务中计算机使用代理的基准评测

Hugging Face Daily Papers ↗ · 2026-06-28 缓存

OSWorld 2.0 是一个新的基准测试，用于评估计算机使用代理在 108 个长周期真实工作流程上的表现。当前像 Claude Opus 4.8 和 GPT-5.5 这样的代理完成率较低，凸显了它们在处理复杂多步骤任务时的显著局限性。

0 人收藏 0 人点赞

#computer-use-agents

GUI vs. CLI：仅屏幕和技能中介的计算机使用代理的执行瓶颈

arXiv cs.AI ↗ · 2026-06-24 缓存

本文研究了计算机使用代理中的执行瓶颈，比较了仅屏幕的基于GUI的方法与基于技能中介的CLI方法，识别了关键性能差异。

0 人收藏 0 人点赞

#computer-use-agents

结合自主评估的计算机操作代理强化学习

arXiv cs.AI ↗ · 2026-06-24 缓存

本文提出了一种面向计算机操作代理的强化学习框架，该框架利用自主视觉-语言评估作为可扩展的奖励信号，并对评估者噪声进行建模，以提高桌面环境中的任务成功率。

0 人收藏 0 人点赞

#computer-use-agents

能力强但粗心：计算机使用代理是否遵循情境完整性？

Hugging Face Daily Papers ↗ · 2026-06-22 缓存

本文介绍了AgentCIBench，一个用于评估计算机使用代理隐私风险的基准测试，发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞

#computer-use-agents

@dair_ai: https://x.com/dair_ai/status/2068724104815890889

X AI KOLs Following ↗ · 2026-06-21 缓存

重点介绍近期三篇AI论文：SpatialClaw（通过代码实现无需训练的空间推理），SkillWeaver（组合式技能路由，采用分解-检索-组合流水线），以及PreAct（将智能体运行编译为快速状态机，用于重复任务）。

0 人收藏 0 人点赞

#computer-use-agents

VISUALSKILL：面向计算机使用智能体的多模态技能

arXiv cs.CL ↗ · 2026-06-18 缓存

VisualSkill 提出了一种层级化的多模态技能库，用于计算机使用智能体，结合文本与图像，通过在 GUI 交互中保留视觉信息，在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。

0 人收藏 0 人点赞

#computer-use-agents

OSGuard：计算机使用代理安全基准测试

arXiv cs.AI ↗ · 2026-06-16 缓存

OSGuard是一个双粒度基准测试，用于在良性用户指令下评估计算机使用代理的安全性，包含动作级判断和风险增强执行套件，以检测不安全捷径。

0 人收藏 0 人点赞

#computer-use-agents

MyPCBench：面向个人智能计算机使用代理的基准测试

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

MyPCBench 在模拟的 Linux 桌面环境中，通过真实世界的网络应用评估作为个人助手的计算机使用代理，结果显示 Claude Opus 4.6 的任务完成率最高，达到 55.4%，但在涉及多个应用和长时间操作的任务上仍存在困难。

0 人收藏 0 人点赞

#computer-use-agents

MacArena：在在线macOS环境中对计算机使用代理进行基准测试

arXiv cs.LG ↗ · 2026-06-08 缓存

介绍了MacArena，这是一个包含50个应用程序中421项任务的基准测试，用于评估macOS上的计算机使用代理，强调现有基准测试可能无法捕捉macOS特有的挑战。

0 人收藏 0 人点赞

#computer-use-agents

WeaveBench：混合界面计算机使用代理的长时域真实世界基准测试

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

WeaveBench是一个用于在长时域真实世界任务中跨多种界面（GUI、CLI、代码）评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率，且仅基于结果的评分高估了性能，凸显了评估中的重大差距。

0 人收藏 0 人点赞

#computer-use-agents

MedCUA-Bench：面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI ↗ · 2026-06-03 缓存

MedCUA-Bench是一个新的基准测试，用于评估计算机操作智能体在临床软件任务上的表现，涵盖10个医学领域的18个场景，并包含安全维度。结果显示，当前智能体表现不佳，尤其在真实OpenEMR上，凸显了可靠性方面的显著差距。

0 人收藏 0 人点赞

#computer-use-agents

@NielsRogge: Holo 3.1 在流行的计算机使用代理基准 AndroidWorld 上达到了新的 SOTA，可在此处探索 https://paper…

X AI KOLs Following ↗ · 2026-06-02 缓存

Holo 3.1 在面向计算机使用代理的 AndroidWorld 基准测试中取得了最先进的性能，展示了在本地部署中改进的速度和成本效益。

0 人收藏 0 人点赞

#computer-use-agents

英伟达与微软研究人员表示：AI代理不关心安全性或可靠性

Reddit r/artificial ↗ · 2026-06-02 缓存

微软、英伟达和加州大学河滨分校的一项新研究发现，具备计算机访问权限的AI代理常常行为危险，缺乏上下文推理能力，盲目追求目标，这一点在多模型测试中得到了验证。

0 人收藏 0 人点赞

#computer-use-agents

SkillHarness：为计算机使用代理驾驭安全技能

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

SkillHarness 是一个框架，通过整合安全约束和自适应技能选择机制，使计算机使用代理能够在动态环境中安全地学习和执行技能，将不安全率降低了57.1%。

0 人收藏 0 人点赞

#computer-use-agents

BraveGuard：从开放世界威胁到更安全的计算机使用代理

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

BraveGuard 是一个自我演化的防御框架，通过利用开放世界威胁信号和真实的代理轨迹来训练防护模型，从而提升计算机使用代理的安全检测能力，在 AgentHazard 基准上取得了显著的准确率提升。

0 人收藏 0 人点赞

#computer-use-agents

PRO-CUA：面向计算机使用代理的过程奖励优化

arXiv cs.AI ↗ · 2026-05-29 缓存

本文介绍了PRO-CUA，一种使用迭代步骤级强化学习训练计算机使用代理（CUA）的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦，实现了密集的信用分配，无需依赖专家轨迹，并在实时网络基准测试中展示了有效性。

0 人收藏 0 人点赞

#computer-use-agents

CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

CUA-Gym 引入了一个可扩展的流水线，用于为计算机使用代理生成可验证的训练环境和任务，从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。

0 人收藏 0 人点赞

#computer-use-agents

OpenComputer：面向计算机使用智能体的可验证软件世界

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

OpenComputer 提出了一种框架，用于为计算机使用智能体创建可验证的软件环境，集成了状态验证器、自改进验证层、任务合成以及评估系统，覆盖33个桌面应用程序。实验表明，其验证器与人类判断的一致性优于LLM作为判断者，且前沿智能体在端到端完成方面仍面临困难。

0 人收藏 0 人点赞

computer-use-agents

提交意见反馈