computer-use-agents

标签

Cards List
#computer-use-agents

能力强但粗心:计算机使用代理是否遵循情境完整性?

Hugging Face Daily Papers · 昨天 缓存

本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞
#computer-use-agents

@dair_ai: https://x.com/dair_ai/status/2068724104815890889

X AI KOLs Following · 2天前 缓存

重点介绍近期三篇AI论文:SpatialClaw(通过代码实现无需训练的空间推理),SkillWeaver(组合式技能路由,采用分解-检索-组合流水线),以及PreAct(将智能体运行编译为快速状态机,用于重复任务)。

0 人收藏 0 人点赞
#computer-use-agents

VISUALSKILL:面向计算机使用智能体的多模态技能

arXiv cs.CL · 5天前 缓存

VisualSkill 提出了一种层级化的多模态技能库,用于计算机使用智能体,结合文本与图像,通过在 GUI 交互中保留视觉信息,在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。

0 人收藏 0 人点赞
#computer-use-agents

OSGuard:计算机使用代理安全基准测试

arXiv cs.AI · 2026-06-16 缓存

OSGuard是一个双粒度基准测试,用于在良性用户指令下评估计算机使用代理的安全性,包含动作级判断和风险增强执行套件,以检测不安全捷径。

0 人收藏 0 人点赞
#computer-use-agents

MyPCBench:面向个人智能计算机使用代理的基准测试

Hugging Face Daily Papers · 2026-06-15 缓存

MyPCBench 在模拟的 Linux 桌面环境中,通过真实世界的网络应用评估作为个人助手的计算机使用代理,结果显示 Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在涉及多个应用和长时间操作的任务上仍存在困难。

0 人收藏 0 人点赞
#computer-use-agents

MacArena:在在线macOS环境中对计算机使用代理进行基准测试

arXiv cs.LG · 2026-06-08 缓存

介绍了MacArena,这是一个包含50个应用程序中421项任务的基准测试,用于评估macOS上的计算机使用代理,强调现有基准测试可能无法捕捉macOS特有的挑战。

0 人收藏 0 人点赞
#computer-use-agents

WeaveBench:混合界面计算机使用代理的长时域真实世界基准测试

Hugging Face Daily Papers · 2026-06-08 缓存

WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。

0 人收藏 0 人点赞
#computer-use-agents

MedCUA-Bench:面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI · 2026-06-03 缓存

MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。

0 人收藏 0 人点赞
#computer-use-agents

@NielsRogge: Holo 3.1 在流行的计算机使用代理基准 AndroidWorld 上达到了新的 SOTA,可在此处探索 https://paper…

X AI KOLs Following · 2026-06-02 缓存

Holo 3.1 在面向计算机使用代理的 AndroidWorld 基准测试中取得了最先进的性能,展示了在本地部署中改进的速度和成本效益。

0 人收藏 0 人点赞
#computer-use-agents

英伟达与微软研究人员表示:AI代理不关心安全性或可靠性

Reddit r/artificial · 2026-06-02 缓存

微软、英伟达和加州大学河滨分校的一项新研究发现,具备计算机访问权限的AI代理常常行为危险,缺乏上下文推理能力,盲目追求目标,这一点在多模型测试中得到了验证。

0 人收藏 0 人点赞
#computer-use-agents

SkillHarness:为计算机使用代理驾驭安全技能

Hugging Face Daily Papers · 2026-06-02 缓存

SkillHarness 是一个框架,通过整合安全约束和自适应技能选择机制,使计算机使用代理能够在动态环境中安全地学习和执行技能,将不安全率降低了57.1%。

0 人收藏 0 人点赞
#computer-use-agents

BraveGuard:从开放世界威胁到更安全的计算机使用代理

Hugging Face Daily Papers · 2026-06-02 缓存

BraveGuard 是一个自我演化的防御框架,通过利用开放世界威胁信号和真实的代理轨迹来训练防护模型,从而提升计算机使用代理的安全检测能力,在 AgentHazard 基准上取得了显著的准确率提升。

0 人收藏 0 人点赞
#computer-use-agents

PRO-CUA:面向计算机使用代理的过程奖励优化

arXiv cs.AI · 2026-05-29 缓存

本文介绍了PRO-CUA,一种使用迭代步骤级强化学习训练计算机使用代理(CUA)的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦,实现了密集的信用分配,无需依赖专家轨迹,并在实时网络基准测试中展示了有效性。

0 人收藏 0 人点赞
#computer-use-agents

CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务

Hugging Face Daily Papers · 2026-05-25 缓存

CUA-Gym 引入了一个可扩展的流水线,用于为计算机使用代理生成可验证的训练环境和任务,从而解决数据稀缺问题。由此产生的数据集和模型在OSWorld-Verified和WebArena等基准测试上取得了强劲的性能。

0 人收藏 0 人点赞
#computer-use-agents

OpenComputer:面向计算机使用智能体的可验证软件世界

Hugging Face Daily Papers · 2026-05-19 缓存

OpenComputer 提出了一种框架,用于为计算机使用智能体创建可验证的软件环境,集成了状态验证器、自改进验证层、任务合成以及评估系统,覆盖33个桌面应用程序。实验表明,其验证器与人类判断的一致性优于LLM作为判断者,且前沿智能体在端到端完成方面仍面临困难。

0 人收藏 0 人点赞
#computer-use-agents

ReVision:通过时间视觉冗余缩减扩展计算机使用智能体

arXiv cs.CL · 2026-05-13 缓存

本文介绍了 ReVision,一种通过从连续屏幕截图中移除冗余视觉块来减少计算机使用智能体 token 使用量的方法。研究表明,这种效率提升使得智能体能够处理更长的轨迹,并在 OSWorld 等基准测试中提高性能。

0 人收藏 0 人点赞
#computer-use-agents

覆盖计算机使用的人类动作空间:数据合成与基准测试

Hugging Face Daily Papers · 2026-05-12 缓存

本文介绍了CUActSpot,一个用于评估计算机使用代理的多模态基准测试,以及一个基于渲染器的数据合成流程。提出的Phi-Ground-Any-4B模型在32B参数以下的开源模型中表现最佳。

0 人收藏 0 人点赞
#computer-use-agents

ToolCUA:迈向计算机使用代理的 GUI-工具路径编排优化

Hugging Face Daily Papers · 2026-05-12 缓存

ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。

0 人收藏 0 人点赞
#computer-use-agents

保障计算机使用代理的安全:面向部署落地可靠性的统一架构-生命周期框架

arXiv cs.CL · 2026-05-11 缓存

这篇学术论文提出了一种统一的架构-生命周期框架,旨在保障计算机使用代理(CUA)在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。

0 人收藏 0 人点赞
#computer-use-agents

论计算机使用智能体的可靠性

Hugging Face Daily Papers · 2026-04-20 缓存

一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈