computer-use-agents

标签

Cards List
#computer-use-agents

PPT-Eval:面向PowerPoint任务的计算机使用代理基准测试

arXiv cs.LG · 4天前 缓存

介绍了PPT-Eval,一个包含120个PowerPoint任务的基准测试,用于评估计算机使用代理,采用基于评分标准的打分系统,可给予部分分数。像Claude-4.5-Opus这样的前沿强代理仅达到45%的成功率,凸显了此类任务的难度。

0 人收藏 0 人点赞
#computer-use-agents

智能体-计算机观察接口实现动态计算机使用

arXiv cs.AI · 5天前 缓存

本文介绍了智能体-计算机观察接口(AOI),这是一种模型无关的感知层,它将计算机使用智能体的连续自适应观察与离散动作解耦。AOI 在动态浏览器任务上实现了显著的性能提升(+17 到 +48 个百分点),且无需重新训练,关键洞察在于将捕获的帧叙述为持久文本是改进的主要驱动因素。

0 人收藏 0 人点赞
#computer-use-agents

OSWorld2.0:长周期真实世界任务中计算机使用代理的基准评测

Hugging Face Daily Papers · 2026-06-28 缓存

OSWorld 2.0 是一个新的基准测试,用于评估计算机使用代理在 108 个长周期真实工作流程上的表现。当前像 Claude Opus 4.8 和 GPT-5.5 这样的代理完成率较低,凸显了它们在处理复杂多步骤任务时的显著局限性。

0 人收藏 0 人点赞
#computer-use-agents

GUI vs. CLI:仅屏幕和技能中介的计算机使用代理的执行瓶颈

arXiv cs.AI · 2026-06-24 缓存

本文研究了计算机使用代理中的执行瓶颈,比较了仅屏幕的基于GUI的方法与基于技能中介的CLI方法,识别了关键性能差异。

0 人收藏 0 人点赞
#computer-use-agents

结合自主评估的计算机操作代理强化学习

arXiv cs.AI · 2026-06-24 缓存

本文提出了一种面向计算机操作代理的强化学习框架,该框架利用自主视觉-语言评估作为可扩展的奖励信号,并对评估者噪声进行建模,以提高桌面环境中的任务成功率。

0 人收藏 0 人点赞
#computer-use-agents

能力强但粗心:计算机使用代理是否遵循情境完整性?

Hugging Face Daily Papers · 2026-06-22 缓存

本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞
#computer-use-agents

@dair_ai: https://x.com/dair_ai/status/2068724104815890889

X AI KOLs Following · 2026-06-21 缓存

重点介绍近期三篇AI论文:SpatialClaw(通过代码实现无需训练的空间推理),SkillWeaver(组合式技能路由,采用分解-检索-组合流水线),以及PreAct(将智能体运行编译为快速状态机,用于重复任务)。

0 人收藏 0 人点赞
#computer-use-agents

VISUALSKILL:面向计算机使用智能体的多模态技能

arXiv cs.CL · 2026-06-18 缓存

VisualSkill 提出了一种层级化的多模态技能库,用于计算机使用智能体,结合文本与图像,通过在 GUI 交互中保留视觉信息,在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。

0 人收藏 0 人点赞
#computer-use-agents

OSGuard:计算机使用代理安全基准测试

arXiv cs.AI · 2026-06-16 缓存

OSGuard是一个双粒度基准测试,用于在良性用户指令下评估计算机使用代理的安全性,包含动作级判断和风险增强执行套件,以检测不安全捷径。

0 人收藏 0 人点赞
#computer-use-agents

MyPCBench:面向个人智能计算机使用代理的基准测试

Hugging Face Daily Papers · 2026-06-15 缓存

MyPCBench 在模拟的 Linux 桌面环境中,通过真实世界的网络应用评估作为个人助手的计算机使用代理,结果显示 Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在涉及多个应用和长时间操作的任务上仍存在困难。

0 人收藏 0 人点赞
#computer-use-agents

MacArena:在在线macOS环境中对计算机使用代理进行基准测试

arXiv cs.LG · 2026-06-08 缓存

介绍了MacArena,这是一个包含50个应用程序中421项任务的基准测试,用于评估macOS上的计算机使用代理,强调现有基准测试可能无法捕捉macOS特有的挑战。

0 人收藏 0 人点赞
#computer-use-agents

WeaveBench:混合界面计算机使用代理的长时域真实世界基准测试

Hugging Face Daily Papers · 2026-06-08 缓存

WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。

0 人收藏 0 人点赞
#computer-use-agents

MedCUA-Bench:面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI · 2026-06-03 缓存

MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。

0 人收藏 0 人点赞
#computer-use-agents

@NielsRogge: Holo 3.1 在流行的计算机使用代理基准 AndroidWorld 上达到了新的 SOTA,可在此处探索 https://paper…

X AI KOLs Following · 2026-06-02 缓存

Holo 3.1 在面向计算机使用代理的 AndroidWorld 基准测试中取得了最先进的性能,展示了在本地部署中改进的速度和成本效益。

0 人收藏 0 人点赞
#computer-use-agents

英伟达与微软研究人员表示:AI代理不关心安全性或可靠性

Reddit r/artificial · 2026-06-02 缓存

微软、英伟达和加州大学河滨分校的一项新研究发现,具备计算机访问权限的AI代理常常行为危险,缺乏上下文推理能力,盲目追求目标,这一点在多模型测试中得到了验证。

0 人收藏 0 人点赞
#computer-use-agents

SkillHarness:为计算机使用代理驾驭安全技能

Hugging Face Daily Papers · 2026-06-02 缓存

SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。

0 人收藏 0 人点赞
#computer-use-agents

BraveGuard:从开放世界威胁到更安全的计算机使用代理

Hugging Face Daily Papers · 2026-06-02 缓存

BraveGuard 是一个自我演化的防御框架,通过利用开放世界威胁信号和真实的代理轨迹来训练防护模型,从而提升计算机使用代理的安全检测能力,在 AgentHazard 基准上取得了显著的准确率提升。

0 人收藏 0 人点赞
#computer-use-agents

PRO-CUA:面向计算机使用代理的过程奖励优化

arXiv cs.AI · 2026-05-29 缓存

本文介绍了PRO-CUA,一种使用迭代步骤级强化学习训练计算机使用代理(CUA)的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦,实现了密集的信用分配,无需依赖专家轨迹,并在实时网络基准测试中展示了有效性。

0 人收藏 0 人点赞
#computer-use-agents

CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务

Hugging Face Daily Papers · 2026-05-25 缓存

CUA-Gym 引入了一个可扩展的流水线,用于为计算机使用代理生成可验证的训练环境和任务,从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。

0 人收藏 0 人点赞
#computer-use-agents

OpenComputer:面向计算机使用智能体的可验证软件世界

Hugging Face Daily Papers · 2026-05-19 缓存

OpenComputer 提出了一种框架,用于为计算机使用智能体创建可验证的软件环境,集成了状态验证器、自改进验证层、任务合成以及评估系统,覆盖33个桌面应用程序。实验表明,其验证器与人类判断的一致性优于LLM作为判断者,且前沿智能体在端到端完成方面仍面临困难。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈