论计算机使用智能体的可靠性

Hugging Face Daily Papers 2026/04/20 00:00 论文

摘要

一篇预印本论文，分析为何计算机使用智能体首次成功却在重复执行时失败，将不可靠性归因于执行随机性、任务模糊性和行为变异性，并倡导重复评估与稳定策略。

计算机使用智能体在网页导航、桌面自动化和软件交互等现实任务中迅速进步，某些场景甚至超越人类表现。然而，即使任务和模型保持不变，一次成功的智能体在重复执行同一任务时也可能失败。这引出一个根本问题：如果智能体能成功完成一次任务，是什么阻碍了它可靠地复现？本文从三方面研究计算机使用智能体的不可靠来源：执行过程中的随机性、任务描述的模糊性以及智能体行为的变异性。我们借助 OSWorld，对同一任务进行多次重复执行，并结合配对统计测试捕捉不同设置下的任务级变化。分析表明，可靠性既取决于任务如何被描述，也取决于智能体在多次执行中的行为差异。这些发现提示，需要在重复执行条件下评估智能体，允许智能体通过交互解决任务模糊性，并优先选择在多次运行中保持稳定的策略。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 19:46

论文页面 - 计算机使用代理的可靠性

来源：https://huggingface.co/papers/2604.17849

摘要

计算机使用代理由于执行随机性、任务描述模糊和行为差异，表现出不可靠的性能，需要反复评估和稳定策略才能完成一致的任务。

计算机使用代理在网页导航、桌面自动化、软件交互等现实任务中迅速提升，某些场景已超越人类水平。然而，即便任务和模型保持不变，同一代理在重复执行同一任务时也可能失败。这引出一个根本问题：如果代理能成功完成一次任务，是什么阻碍了它可靠地复现？本研究从三方面剖析计算机使用代理的不可靠来源：执行过程中的随机性、任务描述的模糊性、以及代理行为的差异。我们在 OSWorld 上通过多次重复执行同一任务，并采用配对统计检验捕捉跨设置的任务级变化，对这些因素进行分析。结果表明，可靠性既取决于任务如何被描述，也取决于代理在多次执行中的行为变化。这些发现提示：需在重复执行条件下评估代理；允许代理通过交互解决任务歧义；优先选择跨运行保持稳定的策略。

查看 arXiv 页面 (https://arxiv.org/abs/2604.17849)
查看 PDF (https://arxiv.org/pdf/2604.17849)
GitHub0 (https://github.com/simular-ai/cua_reliability)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17849)

在你的代理中获取这篇论文：

hf papers read 2604.17849

还没装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。

引用此论文的数据集 0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。

引用此论文的 Spaces 0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2604.17849 即可在此页面显示链接。

收录此论文的合集 0

暂无合集收录此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。

论计算机使用智能体的可靠性

论文页面 - 计算机使用代理的可靠性

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

收录此论文的合集 0

相似文章

保障计算机使用代理的安全：面向部署落地可靠性的统一架构-生命周期框架

我认为很多人低估了不可靠 Agent 的成本有多高

AI代理最诡异的一点：人类失败模式开始显现

自动化智能体评估的实证研究

我最近一直在为企业开发 AI Agent，我认为大多数人高估了自主性，却低估了可靠性。

提交意见反馈