论计算机使用智能体的可靠性
摘要
一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。
查看缓存全文
缓存时间: 2026/04/21 19:46
论文页面 - 计算机使用代理的可靠性
来源:https://huggingface.co/papers/2604.17849
摘要
计算机使用代理由于执行随机性、任务描述模糊和行为差异,表现出不可靠的性能,需要反复评估和稳定策略才能完成一致的任务。
计算机使用代理在网页导航、桌面自动化、软件交互等现实任务中迅速提升,某些场景已超越人类水平。然而,即便任务和模型保持不变,同一代理在重复执行同一任务时也可能失败。这引出一个根本问题:如果代理能成功完成一次任务,是什么阻碍了它可靠地复现?本研究从三方面剖析计算机使用代理的不可靠来源:执行过程中的随机性、任务描述的模糊性、以及代理行为的差异。我们在 OSWorld 上通过多次重复执行同一任务,并采用配对统计检验捕捉跨设置的任务级变化,对这些因素进行分析。结果表明,可靠性既取决于任务如何被描述,也取决于代理在多次执行中的行为变化。这些发现提示:需在重复执行条件下评估代理;允许代理通过交互解决任务歧义;优先选择跨运行保持稳定的策略。
查看 arXiv 页面 (https://arxiv.org/abs/2604.17849)
查看 PDF (https://arxiv.org/pdf/2604.17849)
GitHub0 (https://github.com/simular-ai/cua_reliability)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17849)
在你的代理中获取这篇论文:
hf papers read 2604.17849
还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。
引用此论文的数据集 0
暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。
引用此论文的 Spaces 0
暂无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。
收录此论文的合集 0
暂无合集收录此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。
相似文章
AI代理最诡异的一点:人类失败模式开始显现
作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。
超越自主性:了解自身局限的智能体之力量
COWCORPUS项目通过对4200次人机交互的研究发现,能够预测自身失败和干预时机的智能体,比那些仅仅试图避免错误的智能体更有用。研究人员识别出人机协作中四种稳定的信任模式,并开发了完美时机评分(PTS)来衡量干预预测的准确性。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。
更智能的AI代理并不意味着更好的AI代理
文章认为,提高AI代理的能力并不会自然而然地提升其可靠性,强调需要建立类似会计标准的稳健控制系统、审计和人类监督,以防止令人信服的失败。
引用 Andreas Påhlsson-Notini 的话
Andreas Påhlsson-Notini 批评当前 AI agent 表现出令人沮丧的“人性”——注意力涣散、来回讨价还价。