论计算机使用智能体的可靠性
摘要
一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。
查看缓存全文
缓存时间: 2026/04/21 19:46
论文页面 - 计算机使用代理的可靠性
来源:https://huggingface.co/papers/2604.17849
摘要
计算机使用代理由于执行随机性、任务描述模糊和行为差异,表现出不可靠的性能,需要反复评估和稳定策略才能完成一致的任务。
计算机使用代理在网页导航、桌面自动化、软件交互等现实任务中迅速提升,某些场景已超越人类水平。然而,即便任务和模型保持不变,同一代理在重复执行同一任务时也可能失败。这引出一个根本问题:如果代理能成功完成一次任务,是什么阻碍了它可靠地复现?本研究从三方面剖析计算机使用代理的不可靠来源:执行过程中的随机性、任务描述的模糊性、以及代理行为的差异。我们在 OSWorld 上通过多次重复执行同一任务,并采用配对统计检验捕捉跨设置的任务级变化,对这些因素进行分析。结果表明,可靠性既取决于任务如何被描述,也取决于代理在多次执行中的行为变化。这些发现提示:需在重复执行条件下评估代理;允许代理通过交互解决任务歧义;优先选择跨运行保持稳定的策略。
查看 arXiv 页面 (https://arxiv.org/abs/2604.17849)
查看 PDF (https://arxiv.org/pdf/2604.17849)
GitHub0 (https://github.com/simular-ai/cua_reliability)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17849)
在你的代理中获取这篇论文:
hf papers read 2604.17849
还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。
引用此论文的数据集 0
暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。
引用此论文的 Spaces 0
暂无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。
收录此论文的合集 0
暂无合集收录此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。
相似文章
保障计算机使用代理的安全:面向部署落地可靠性的统一架构-生命周期框架
这篇学术论文提出了一种统一的架构-生命周期框架,旨在保障计算机使用代理(CUA)在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。
我认为很多人低估了不可靠 Agent 的成本有多高
作者指出,不可靠 AI Agent 的隐性成本在于持续人工监控所带来的认知开销,并强调在实际落地中,可预测性与环境稳定性远比模型的原始智能更重要。当 Agent 运行在受控且经过验证的环境中,而非充满不确定性的环境时,实际工作流的效率将得到显著提升。
AI代理最诡异的一点:人类失败模式开始显现
作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。
我最近一直在为企业开发 AI Agent,我认为大多数人高估了自主性,却低估了可靠性。
作者认为,在企业级 AI Agent 开发中,运行的可靠性和稳定性比高度自主性更为关键,倡导受控智能而非完全自主的系统。