论计算机使用智能体的可靠性

Hugging Face Daily Papers 论文

摘要

一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。

计算机使用智能体在网页导航、桌面自动化和软件交互等现实任务中迅速进步,某些场景甚至超越人类表现。然而,即使任务和模型保持不变,一次成功的智能体在重复执行同一任务时也可能失败。这引出一个根本问题:如果智能体能成功完成一次任务,是什么阻碍了它可靠地复现?本文从三方面研究计算机使用智能体的不可靠来源:执行过程中的随机性、任务描述的模糊性以及智能体行为的变异性。我们借助 OSWorld,对同一任务进行多次重复执行,并结合配对统计测试捕捉不同设置下的任务级变化。分析表明,可靠性既取决于任务如何被描述,也取决于智能体在多次执行中的行为差异。这些发现提示,需要在重复执行条件下评估智能体,允许智能体通过交互解决任务模糊性,并优先选择在多次运行中保持稳定的策略。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 19:46

论文页面 - 计算机使用代理的可靠性

来源:https://huggingface.co/papers/2604.17849

摘要

计算机使用代理由于执行随机性、任务描述模糊和行为差异,表现出不可靠的性能,需要反复评估和稳定策略才能完成一致的任务。

计算机使用代理在网页导航、桌面自动化、软件交互等现实任务中迅速提升,某些场景已超越人类水平。然而,即便任务和模型保持不变,同一代理在重复执行同一任务时也可能失败。这引出一个根本问题:如果代理能成功完成一次任务,是什么阻碍了它可靠地复现?本研究从三方面剖析计算机使用代理的不可靠来源:执行过程中的随机性、任务描述的模糊性、以及代理行为的差异。我们在 OSWorld 上通过多次重复执行同一任务,并采用配对统计检验捕捉跨设置的任务级变化,对这些因素进行分析。结果表明,可靠性既取决于任务如何被描述,也取决于代理在多次执行中的行为变化。这些发现提示:需在重复执行条件下评估代理;允许代理通过交互解决任务歧义;优先选择跨运行保持稳定的策略。

查看 arXiv 页面 (https://arxiv.org/abs/2604.17849)
查看 PDF (https://arxiv.org/pdf/2604.17849)
GitHub0 (https://github.com/simular-ai/cua_reliability)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17849)

在你的代理中获取这篇论文:

hf papers read 2604.17849

还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。

引用此论文的数据集 0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。

引用此论文的 Spaces 0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。

收录此论文的合集 0

暂无合集收录此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。

相似文章

我认为很多人低估了不可靠 Agent 的成本有多高

Reddit r/AI_Agents

作者指出,不可靠 AI Agent 的隐性成本在于持续人工监控所带来的认知开销,并强调在实际落地中,可预测性与环境稳定性远比模型的原始智能更重要。当 Agent 运行在受控且经过验证的环境中,而非充满不确定性的环境时,实际工作流的效率将得到显著提升。

AI代理最诡异的一点:人类失败模式开始显现

Reddit r/AI_Agents

作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。