计算机使用代理

OpenAI Blog 2025/01/23 10:00 模型

computer-use ai-agent openai gui-automation reinforcement-learning multimodal web-browsing

摘要

# 计算机使用代理来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持，这是AI与数字世界交互的通用接口。今天我们推出了[Operator⁠$在新窗口中打开$](https://operator.chatgpt.com/)的研究预览版，这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动，这是一个结合了GPT-4o视觉功能的模型

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:54

# 计算机使用代理来源：https://openai.com/index/computer-using-agent/ 用计算机使用代理为 Operator 赋能，这是一个通用的人工智能与数字世界交互的界面。今天我们推出了 Operator（https://operator.chatgpt.com/）的研究预览版，这是一个可以上网为你执行任务的代理。为 Operator 赋能的是计算机使用代理 (CUA)，它结合了 GPT-4o 的视觉能力与通过强化学习的高级推理能力。CUA 经过训练可以与图形用户界面 (GUI) 交互——即人们在屏幕上看到的按钮、菜单和文本字段——就像人类一样。这使它能够灵活地执行数字任务，而无需使用特定于操作系统或网络的 API。 CUA 建立在多模态理解和推理交叉领域多年基础研究的基础之上。通过将先进的 GUI 感知与结构化问题解决相结合，它可以将任务分解为多步计划，并在遇到挑战时自适应地自我纠正。这种能力标志着 AI 发展的下一步，使模型能够使用人类每天依赖的相同工具，并为大量新应用的出现打开了大门。虽然 CUA 仍处于早期阶段且存在局限性，但它设置了新的最先进基准结果，在 OSWorld 全计算机使用任务上实现了 38.1% 的成功率，在 WebArena 上为 58.1%，在 WebVoyager 上为 87%。这些结果突出了 CUA 使用单一通用动作空间在不同环境中导航和操作的能力。我们在开发 CUA 时优先考虑安全性，以解决代理访问数字世界所带来的挑战，详见我们的 Operator System Card（https://openai.com/index/operator-system-card/）。按照我们的迭代部署策略，我们通过 operator.chatgpt.com（https://operator.chatgpt.com/）上的 Operator 研究预览版面向美国的 Pro（https://openai.com/chatgpt/pricing/）级用户开放。通过收集真实世界的反馈，我们可以完善安全措施，并在为日益增长的数字代理使用做好准备时不断改进。 CUA 处理原始像素数据以理解屏幕上正在发生的事情，并使用虚拟鼠标和键盘来完成操作。它可以处理多步骤任务、处理错误并适应意外变化。这使 CUA 能够在各种数字环境中工作，执行填写表单和浏览网站等任务，而无需专门的 API。根据用户的指令，CUA 通过整合感知、推理和动作的迭代循环来运作： - **感知**：计算机的屏幕截图被添加到模型的上下文中，提供计算机当前状态的视觉快照。 - **推理**：CUA 使用思维链推理后续步骤，同时考虑当前和过去的屏幕截图及动作。这种内部独白通过使模型能够评估其观察、跟踪中间步骤并动态适应来改进任务性能。 - **动作**：它执行动作——点击、滚动或输入——直到决定任务完成或需要用户输入。虽然它自动处理大多数步骤，但 CUA 会为敏感操作（如输入登录凭证或响应 CAPTCHA 表单）寻求用户确认。 CUA 通过使用屏幕、鼠标和键盘这一相同的通用界面，在计算机使用和浏览器使用基准上建立了新的最先进水平。 | 基准类型 | 基准 | 计算机使用（通用界面）| 网络浏览代理 | 人类 | |---------|------|-------------------|----------|------| | | | OpenAI CUA | 之前的 SOTA | 之前的 SOTA | | 计算机使用 | OSWorld | 38.1% | 22.0%（https://www.anthropic.com/news/3-5-models-and-computer-use） | 72.4%（https://arxiv.org/abs/2404.07972） | | 浏览器使用 | WebArena | 58.1% | 36.2%（https://huggingface.co/spaces/ServiceNow/browsergym-leaderboard） | 57.1%（https://docs.google.com/spreadsheets/d/1M801lEpBbKSNwP-vDBkC_pF7LdyGU1f_ufZb_NWNBZQ） | | | WebVoyager | 87.0% | 56.0%（https://www.trykura.com/benchmarks） | 87.0%（https://www.trykura.com/benchmarks） | 评估细节详见这里（https://cdn.openai.com/cua/CUA_eval_extra_information.pdf） WebArena（https://arxiv.org/abs/2307.13854）和 WebVoyager（https://arxiv.org/abs/2401.13919）旨在评估网络浏览代理在使用浏览器完成真实世界任务时的性能。WebArena 利用自托管的开源网站离线模拟真实场景，包括电子商务、在线商店内容管理 (CMS)、社交论坛平台等。WebVoyager 在 Amazon、GitHub 和 Google Maps 等在线实时网站上测试模型的性能。在这些基准中，CUA 使用相同的通用界面设置了新标准，该界面将浏览器屏幕感知为像素并通过鼠标和键盘进行操作。CUA 在 WebArena 上实现了 58.1% 的成功率，在 WebVoyager 上实现了 87% 的成功率。虽然 CUA 在大多数任务相对简单的 WebVoyager 上实现了较高的成功率，但 CUA 在更复杂的基准（如 WebArena）上仍需改进以缩小与人类性能的差距。 OSWorld（https://arxiv.org/abs/2404.07972）是一个评估模型控制完整操作系统（如 Ubuntu、Windows 和 macOS）能力的基准。在此基准上，CUA 实现了 38.1% 的成功率。我们观察到了测试时间扩展，这意味着当允许更多步骤时，CUA 的性能会改善。下图比较了 CUA 的性能与之前的最先进技术在允许的最大步骤数不同时的表现。该基准上的人类性能为 72.4%，因此仍有很大的改进空间。以下可视化显示了 CUA 导航各种标准化 OSWorld 任务的示例。我们通过 Operator（https://openai.com/index/introducing-operator/）的研究预览版提供 CUA，这是一个可以上网为你执行任务的代理。Operator 面向美国的 Pro（https://openai.com/chatgpt/pricing/）用户在 operator.chatgpt.com（https://operator.chatgpt.com/）提供。此研究预览版是一个从用户和更广泛生态系统学习的机会，迭代地完善和改进 Operator。与任何早期阶段的技术一样，我们预计 CUA 在所有场景中的性能还不够可靠。然而，它已经在多种情况下证明了其有用性，我们的目标是在更广泛的任务范围内扩展这种可靠性。通过在 Operator 中发布 CUA，我们希望从用户那里收集宝贵的见解，这将指导我们完善其能力并扩展其应用。下表中，我们展示了 CUA 在 Operator 中在少数试验中的性能，并给出了一个提示以说明其已知的优势和劣势。 | 类别 | 提示 | 成功/尝试 | 注释 | |------|------|---------|------| | 与各种 UI 组件交互以完成任务 | 第 1 轮：在大英百科全书中搜索熊栖息地的详细地图视图第 2 轮：太好了！现在请查看黑熊、棕熊和北极熊的链接，并提供对其物理特征（特别是它们之间的差异）的简明概述。哦，请为我保存这些链接，这样我就可以快速访问它们。 | 10/10 | CUA 可以与各种 UI 组件交互以搜索、排序和筛选结果以找到用户想要的信息。不同网站和 UI 的可靠性各不相同。 | | | 我想要那个 Target 的交易。你能检查一下他们是否有 Poppi 益生菌汽水的交易吗？如果有的话，我想要西瓜味的 12 液盎司罐。告诉我这个产品附带的交易类型，并检查它是否不含麸质。 | 9/10 | | | | 我计划搬到西雅图，希望你在 Redfin 上搜索至少有 3 间卧室、2 间浴室和节能设计（例如太阳能电池板或 LEED 认证）的联排别墅。我的预算在 $600,000 - $800,000 之间，理想情况下应该接近 1500 平方英尺。 | 3/10 | | | 通过重复简单 UI 交互可以完成的任务 | 在 Todoist 中创建一个名为"周末杂货购物"的新项目。添加以下包含产品的购物清单：香蕉（6 根）牛油果（2 个成熟的）婴儿菠菜（1 袋）全脂牛奶（1 加仑）切达芝士（8 盎司砖块）薯片（咸味，家庭装）黑巧克力（70% 可可，2 条） | 10/10 | CUA 可以可靠地多次重复简单的 UI 交互，以自动化用户的简单但乏味的任务。 | | | 在 Spotify 上搜索美国 1990 年代最流行的歌曲，并创建一个至少有 10 首歌曲的播放列表。 | 10/10 | | | CUA 仅当提示包含关于如何使用网站的详细提示时才显示较高成功率的任务 | 访问 tagvenue.com，在伦敦寻找可容纳 150 人的音乐厅。我需要在 2025 年 2 月 22 日使用，整天从上午 9 点到午夜 12 点，只需确保费用不超过每小时 £90。哦，你能检查一下筛选器部分是否有合适的筛选器，并确保有停车位且整个场所都可轮椅进入吗？ | 8/10 | 即使是同一项任务，根据我们提示任务的方式，CUA 的可靠性也可能会改变。在这种情况下，我们可以通过提供日期的具体信息（例如上午 9 点到午夜 12 点，而不是整天从上午 9 点）以及提供关于应使用哪个 UI 来查找结果的提示（例如检查筛选器部分...）来提高可靠性。 | | | 访问 tagvenue.com，在伦敦寻找可容纳 150 人的音乐厅。我需要在 2025 年 2 月 22 日使用，整天从上午 9 点，只需确保费用不超过每小时 £90。哦，并确保有停车位且整个场所都可轮椅进入。 | 3/10 | | | 难以使用不熟悉的 UI 和文本编辑 | 使用 html5editor 并在左侧输入以下文本，然后按照我的说明编辑它，完成后给我整个内容的屏幕截图。文本是：Hello world! 这是我的第一篇文本。我想看看用 HTML 编程时会是什么样子。有些部分应该是红色的。一些加粗。一些斜体。一些下划线。直到我的课程完成，我们转到另一侧。... Hello world! 应该应用 2 级标题。下面的句子应该是常规段落文本。提到红色的句子应该是普通文本和红色。提到加粗的句子应该是普通文本加粗。提到斜体的句子应该斜体化。最后一句应该右对齐而不是通常的左对齐。 | 4/10 | 当 CUA 必须与在训练期间没有多少交互的 UI 交互时，它难以找到如何适当地使用提供的 UI。这通常导致大量试错和低效的操作。 CUA 在文本编辑中精度不高。它在过程中经常出现很多错误或提供有错误的输出。 | 由于 CUA 是我们首批具有在浏览器中直接采取行动能力的代理产品之一，它在解决方面带来了新的风险和挑战。在为 Operator 部署做准备时，我们进行了广泛的安全测试，并在三大类安全风险中实施了缓解措施：滥用、模型错误和前沿风险。我们认为采取分层安全方法很重要，因此我们在整个部署环境中实施了保障措施：CUA 模型本身、Operator 系统和部署后流程。目的是进行相互补充的缓解措施，每一层都逐步降低风险概况。第一类风险是**滥用**。除了要求用户遵守我们的使用政策（https://openai.com/policies/using-chatgpt-agent-in-line-with-our-policies/）外，我们设计了以下缓解措施以减少 Operator 因滥用而造成的风险，这建立在我们对 GPT-4o 的安全工作（https://openai.com/index/gpt-4o-system-card/）基础之上： - **拒绝**：CUA 模型经过训练可以拒绝许多有害任务以及非法或受管制的活动。 - **黑名单**：Operator 无法访问我们主动屏蔽的网站，如许多赌博网站、成人娱乐内容和毒品或枪支零售商。 - **调节**：用户交互由自动化安全检查员实时审查，旨在确保符合使用政策，并能够对禁止活动发出警告或阻止。 - **离线检测**：我们还开发了自动检测和人工审查管道，以识别优先政策领域中的禁止使用，包括儿童安全和欺骗活动，使我们能够执行我们的使用政策。第二类风险是**模型错误**，即 CUA 模型意外采取用户未打算的操作，这反过来又对用户或他人造成伤害。假设的错误可能严重程度不同，从电子邮件中的打字错误到购买错误的物品，到永久删除重要文档。为了将潜在伤害最小化，我们开发了以下缓解措施： - **用户确认**：CUA 模型经过训练可在完成具有外部影响的任务之前要求用户确认，例如在提交订单、发送电子邮件等之前，以便用户可以在模型工作变为永久之前对其进行双重检查。 - **任务限制**：目前，CUA 模型将拒绝帮助某些高风险任务，如银行交易和需要敏感决策的任务。 - **观看模式**：在特别敏感的网站（如电子邮件）上，Operator 需要主动用户监督，确保用户可以直接发现并解决模型可能犯的任何潜在错误。模型错误的一个特别重要的类别是**对网站的对抗性攻击**，通过提示注入、越狱和网络钓鱼尝试导致 CUA 模型采取意外操作。除了上述针对模型错误的缓解措施外，我们开发了多层额外防御来防范这些风险： - **谨慎导航**：CUA 模型设计用于识别和忽略网站上的提示注入，认出早期内部红队会议中的所有情况（仅一个除外）。 - **监控**：在 Operator 中，我们实施了一个额外的模型来监控并在检测到屏幕上有可疑内容时暂停执行。 - **检测管道**：我们应用自动检测和人工审查管道来识别可疑的访问模式，这些模式可以被标记并迅速添加到监控器（在几小时内）。最后，我们根据我们的准备框架（https://cdn.openai.com/openai-preparedness-framework-beta.pdf）中概述的**前沿风险**对 CUA 模型进行了评估，包括涉及自主复制和生物风险工具的场景。这些评估显示在 GPT-4o 之上没有增量风险。对于有兴趣更深入地探索评估和保障措施的人，我们鼓励你审查 Operator System Card（https://openai.com/index/operator-system-card/），这是一份活文档，提供了对我们安全方法和持续改进的透明度。由于 Operator 的许多功能都是新的，我们实施的风险和缓解方法也是新的。虽然我们旨在采用最先进的、多样化和互补的缓解措施，但我们预计这些风险和我们的方法会随着我们了解更多信息而演变。我们期待利用研究预览期作为收集用户反馈、完善我们的保障措施和增强代理安全性的机会。 CUA 建立在多模态、推理和安全领域多年研究进展的基础之上。我们通过 o 模型系列在深度推理、GPT-4o 的视觉能力以及通过强化学习和指令层次结构改进稳健性的新技术方面取得了显著进展。

计算机使用代理

相似文章

Operator 系统卡

介绍 Operator

介绍 ChatGPT agent

ChatGPT agent 系统卡

ChatGPT 介绍

提交意见反馈