介绍 ChatGPT agent

OpenAI Blog 产品

摘要

OpenAI 推出 ChatGPT agent,一个统一的智能体系统,结合了网页浏览、深度研究和对话能力,能够自主处理复杂的多步骤任务。该智能体可以浏览网站、分析信息、运行代码和生成交付成果,同时通过权限请求让用户保持控制。

介绍 ChatGPT agent:它能思考和行动,利用各种工具完成研究、预订和幻灯片等任务——全程由您指导。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:48

# 介绍 ChatGPT Agent:连接研究与行动 来源:https://openai.com/index/introducing-chatgpt-agent/ ChatGPT 现在可以使用自己的计算机为你工作,从头到尾处理复杂的任务。 你现在可以要求 ChatGPT 处理诸如"查看我的日历,并根据最近的新闻向我介绍即将到来的客户会议"、"计划并购买食材为四人准备日式早餐"和"分析三个竞争对手并创建幻灯片演示"这样的请求。ChatGPT 将智能地浏览网站、过滤结果、在需要时提示你安全登录、运行代码、进行分析,甚至提供可编辑的幻灯片演示和电子表格来总结其发现。 这项新功能的核心是一个统一的智能体系统。它整合了早期突破的三大优势:Operator(https://openai.com/index/introducing-operator/)与网站交互的能力、Deep Research(https://openai.com/index/introducing-deep-research/)综合信息的技能,以及 ChatGPT 的智能和对话流畅性。 ChatGPT 使用自己的虚拟计算机执行这些任务,在推理和行动之间流畅地切换,从头到尾处理复杂的工作流程,全部基于你的指示。 最重要的是,你始终处于控制中。ChatGPT 在采取重要行动之前请求允许,你可以随时轻松中断、接管浏览器或停止任务。 从今天开始,Pro、Plus 和 Team 用户可以通过编写器中的工具下拉菜单直接激活 ChatGPT 的新智能体功能,在任何对话中的任何时点选择"agent mode"。 虽然 ChatGPT Agent 已经是处理复杂任务的强大工具,但今天的发布只是开始。我们将继续定期迭代添加重大改进,使其在整个过程中对越来越多的人更加强大和有用。 之前,Operator 和 Deep Research 各自具有独特的优势:Operator 可以在网络上滚动、点击和输入,而 Deep Research 在分析和总结信息方面表现出色。但它们在不同的情况下效果最佳:Operator 无法深入分析或撰写详细报告,Deep Research 无法与网站交互以精化结果或访问需要用户身份验证的内容。实际上,我们发现许多用户尝试使用 Operator 的查询实际上更适合 Deep Research,所以我们将两者的优点结合在一起。 通过在 ChatGPT 中整合这些互补的优势并引入额外的工具,我们在一个模型中解锁了全新的能力。它现在可以主动与网站互动——点击、过滤和收集更精确、更高效的结果。你也可以自然地在简单对话和直接在同一聊天中请求操作之间转换。 我们为 ChatGPT Agent 配备了一套工具:通过图形用户界面与网络交互的可视化浏览器、用于更简单的基于推理的网络查询的基于文本的浏览器、终端和直接 API 访问。该智能体还可以利用 ChatGPT 连接器(https://help.openai.com/en/articles/11487775-connectors-in-chatgpt),允许你连接 Gmail 和 Github 等应用,这样 ChatGPT 可以找到与你的提示相关的信息并在其响应中使用它们。你还可以通过接管浏览器在任何网站上登录,使其在研究和任务执行中的深度和广度都更大。给予 ChatGPT 这些不同的途径来访问和与网络信息交互意味着它可以选择最优路径以最有效地执行任务。例如,它可以通过 API 收集有关你日历的信息,使用基于文本的浏览器有效地推理大量文本,同时也能够与主要为人类设计的网站进行视觉交互。 所有这些都是使用自己的虚拟计算机完成的,这保留了任务所需的上下文,即使使用了多个工具——该模型可以选择使用文本浏览器或可视浏览器打开页面、从网络下载文件、通过在终端中运行命令来操纵它,然后在可视浏览器中查看输出。该模型调整其方法以快速、准确和高效地执行任务。 ChatGPT Agent 为迭代式协作工作流而设计,远比以前的模型更具交互性和灵活性。当 ChatGPT 工作时,你可以随时中断以澄清你的指示、引导它朝向期望的结果或完全改变任务。它将从中断处继续,现在拥有新信息,但不会丧失先前的进展。同样地,ChatGPT 本身可能会主动从你那里寻求额外的细节,以确保任务与你的目标保持一致。如果任务花费的时间比预期长或似乎卡住了,你可以暂停它、要求它提供进度摘要或完全停止它并接收部分结果。如果你的手机上有 ChatGPT 应用,它会在完成任务时向你发送通知。 这些统一的智能体功能在日常和专业环境中都显著增强了 ChatGPT 的实用性。在工作中,你可以自动化重复任务,如将屏幕截图或仪表板转换为由可编辑矢量元素组成的演示文稿、重新安排会议、计划和预订公司外出活动,以及用新的财务数据更新电子表格同时保持相同的格式。在你的个人生活中,你可以使用它轻松计划和预订旅行行程、设计和预订整个晚宴,或寻找专家和安排约约。 该模型提升的能力反映在其在衡量网络浏览和现实世界任务完成能力的评估中的最先进(SOTA)性能中。 在**人类的最后考试**(https://agi.safe.ai/)\*上,这是一项在专家级问题的广泛学科中测量 AI 性能的评估,ChatGPT Agent 的强大模型以 41.6% 的新 pass@1 SOTA 分数达到。因为该智能体动态规划并选择自己的工具,它可以在不同的运行中以不同的方式处理相同的任务。当我们使用简单的并行部署策略进行扩展时——同时运行最多八次尝试并选择具有最高自我报告置信度的那个——该智能体的 HLE 分数增加到 44.4%。 **FrontierMath\*\***是已知的最难数学基准,以新颖的、未发表的问题为特点,这些问题通常需要专家数学家花费数小时甚至数天才能解决。通过工具使用,如访问终端进行代码执行,ChatGPT Agent 达到 27.4% 的准确性,以很大优势超越了两个以前的模型。 我们还使用以复杂现实世界任务为模型的基准评估了该模型。在内部基准上设计用于评估模型在**复杂、经济上有价值的知识工作任务**上的性能,ChatGPT Agent 的输出在大约一半的情况下可比或优于人类在一系列任务完成时间范围内,同时大幅超越 o3 和 o4-mini。模型输出由专家对照每个领域的顶级执行者创建的高质量人类基准进行评判。这些任务来自不同职业和行业的专家,镜像现实专业工作——如准备按需紧急护理提供商的竞争分析、构建详细的摊销时间表以及为新的绿色氢设施识别可行的水井。 在**DSBench**(https://arxiv.org/abs/2409.07703)上,它旨在评估智能体在跨越数据分析和建模的现实数据科学任务上的表现,ChatGPT Agent 显著以很大幅度超越人类性能。 在**SpreadsheetBench**上,它评估模型在编辑源自现实场景的电子表格的能力,ChatGPT Agent 的表现以显著幅度超越现有模型。当获得直接编辑电子表格的能力时,ChatGPT Agent 的分数甚至更高,为 45.5%,而 Copilot in Excel 的分数为 20.0%。 方法:SpreadsheetBench 作者使用 Windows 环境使用 Microsoft Excel 来评估电子表格。我们使用了 OSX 环境和 LibreOffice,这可能导致小的评分差异。例如,作者发现 GPT-4o 的总体困难限制为 15.02%,而我们获得了 13.38%。我们使用了完整的 912 个问题基准。 在内部基准上,该基准衡量模型承担第一到第三年**投资银行分析师建模任务**的能力——如为财富 500 强公司整合三份财务报表模型并带有适当的格式和引文,或为收购去私营化构建杠杆收购模型——ChatGPT Agent 的强大模型大幅超越 Deep Research 和 o3。每项任务根据与正确性和公式使用相关的数百个标准进行评分。 我们还在**BrowseComp**(https://openai.com/index/browsecomp/)上评估了 ChatGPT Agent,这是我们今年早些时候发布的基准,衡量浏览智能体在网上定位难以找到的信息的能力。该模型以 68.9% 的新 SOTA 设定记录,比 Deep Research 高出 17.4 个百分点。 最后,在**WebArena**(https://webarena.dev/)上,这是一项旨在评估网络浏览智能体在完成现实世界网络任务中的性能的基准,该模型改进了由 o3 驱动的 CUA(驱动 Operator 的模型)。 你可以通过编写器中的工具下拉菜单直接激活 ChatGPT 的新智能体功能,在任何对话中的任何时点选择"agent mode"。只需描述你想要的任务——无论是进行深度研究、创建幻灯片演示还是提交支出。当它执行你的任务时,屏幕上的叙述会让你清楚地看到 ChatGPT 在做什么。你可以在任何需要时中断并接管浏览器,确保任务与你的目标保持一致。 ChatGPT Agent 可以访问你的连接器,允许它与你的工作流集成并访问相关的、可操作的信息。一旦进行身份验证,这些连接器允许 ChatGPT 查看信息并执行操作,如为你总结收件箱或找到你可用于会议的时间段——要在这些网站上采取行动,你仍然会被提示通过接管浏览器来登录。 此外,你可以安排已完成的任务自动重复进行,例如每周一早上生成一份指标报告。 这个发布标志着用户首次可以要求 ChatGPT 在网络上采取行动。这引入了新的风险,特别是因为 ChatGPT Agent 可以直接与你的数据合作,无论是通过连接器访问的信息还是你通过接管模式登录的网站。我们加强了来自 Operator 研究预览版的强大控制,并为诸如在实时网络上处理敏感信息、更广泛的用户范围和(有限的)终端网络访问等挑战添加了保护措施。虽然这些缓解措施显著降低了风险,ChatGPT Agent 的扩展工具和更广泛的用户范围意味着其整体风险概况更高。 我们特别强调保护 ChatGPT Agent 免受**通过提示注入的对抗性操纵**,这通常是智能体系统的风险,我们为此做好了更广泛的缓解措施。提示注入是第三方试图通过恶意指示来操纵其行为的尝试,ChatGPT Agent 可能在完成任务时在网上遇到。例如,隐藏在网页中的恶意提示,如在不可见的元素或元数据中,可能会欺骗该智能体采取意外行动,如与攻击者共享来自连接器的私人数据,或对用户已登录的网站采取有害行动。因为 ChatGPT Agent 可以采取直接行动,成功的攻击可能有更大的影响并带来更高的风险。 我们已对该智能体进行了识别和抵抗提示注入的训练和测试,除了使用监控来快速检测和应对提示注入攻击。在后续行动之前需要明确的用户确认进一步减少了这些攻击造成伤害的风险,用户可以通过接管或暂停根据需要干预任务。当决定向该智能体提供什么信息时,用户应该权衡这些权衡,以及采取步骤最小化他们对这些风险的暴露,例如在不需要任务时禁用连接器。 我们还实施了关于**模型错误的缓解措施**,特别是因为该模型现在可以执行影响现实世界的任务: - **明确的用户确认:**ChatGPT 经过训练,在采取具有现实世界后果的行动(如进行购买)之前明确要求你的允许。 - **主动监督("观看模式"):**某些关键任务,如发送电子邮件,需要你的主动监督。 - **主动风险缓解:**ChatGPT 经过训练主动拒绝高风险任务,如银行转账。 最后,我们引入了额外的控制来**限制数据**该模型可以访问: - **隐私控制:**通过 ChatGPT 设置中的一次点击,你可以删除所有浏览数据并立即登出所有活跃的网站会话。否则,Cookie 会根据每个访问网站的 Cookie 政策持续,这可以使重复访问网站更有效。 - **安全的浏览器接管模式:**当你使用 ChatGPT 的浏览器与网络交互("接管模式")时,你的输入保持私密。ChatGPT 在这些会话期间不会收集或存储你输入的任何数据,如密码,因为该模型不需要它,如果它从不看到它会更安全。 随着模型功能的增加,我们已经决定将 ChatGPT Agent 视为我们**准备框架**(https://openai.com/index/updating-our-preparedness-framework/)下的高生物和化学能力,激活相关的保护措施。虽然我们没有明确的证据表明该模型可以有意义地帮助新手创建严重的生物伤害——我们的高能力阈值——我们正在谨慎行事并立即实施所需的保护措施。因此,这个模型拥有我们迄今为止最全面的安全堆栈,对生物学有增强的保护措施:全面的威胁建模、双用途拒绝培训、始终在线的分类器和推理监视器,以及清晰的执行管道。 除了我们保护 ChatGPT Agent 的工作外,我们知道分层生物安全在保护措施超越任何一个实验室时效果最佳,所以我们在整个生态系统中合作以加强防御。从第一天起,我们就与外部生物安全专家、安全研究所和学术研究人员合作,以形成我们的威胁模型、评估和政策。经过培训的生物学评审员验证了我们的评估数据,领域专家红队员在现实场景中对保护措施进行了压力测试。本月早些时候,我们召集了一个由政府、学术界、国家实验室和非政府组织专家组成的生物防御研讨会,以加速协作并推进由 AI 驱动的生物防御研究。我们将继续全球合作伙伴关系以保持领先于新兴风险。 在**系统卡**(https://openai.com/index/chatgpt-agent-system-card/)中阅读更多关于我们对统一智能体模型的强大安全方法的信息。我们也推出了**漏洞赏金计划**(https://openai.com/bio-bug-bounty/),这样我们可以找到并修复现实世界的风险。 ChatGPT Agent 从今天开始向 Pro、Plus 和 Team 用户推出;Pro 将在今天结束前获得访问权限,而 Plus 和 Team 用户将在接下来的几天内获得访问权限。企业和教育用户将在接下来的几周内获得访问权限。Pro 用户有

相似文章

ChatGPT agent 系统卡

OpenAI Blog

OpenAI 发布 ChatGPT agent,一个结合了深度研究和操作员功能的代理模型,具备终端访问和外部数据连接器,并在生物和化学领域配备了全面的安全防护措施和预防性控制。

ChatGPT 介绍

OpenAI Blog

OpenAI 推出 ChatGPT,这是一个基于 GPT-3.5 的对话型 AI 模型,通过人类反馈强化学习(RLHF)进行微调。该模型旨在回答后续问题、承认错误和拒绝不当请求,在研究预览期间提供免费访问。

推出 ChatGPT Atlas,内置 ChatGPT 的浏览器

OpenAI Blog

OpenAI 推出了 ChatGPT Atlas,一款内置 ChatGPT 的网络浏览器,让用户可以在整个网络上访问 AI 助手,具有集成记忆、上下文感知和 Agent 模式功能。该产品今天在 macOS 上为免费版、Plus、Pro 和 Go 用户推出,Windows、iOS 和 Android 版本即将推出。

推介 ChatGPT 搜索功能

OpenAI Blog

OpenAI 推出了 ChatGPT 搜索功能,使这款 AI 助手能够搜索网络并提供及时的答案,配有相关源链接。自 2025 年 2 月起,该功能已向所有支持地区的用户开放,无需注册即可使用。

在ChatGPT中引入工作区代理

OpenAI Blog

OpenAI在ChatGPT中推出工作区代理,这是由Codex驱动的GPTs的进化,使团队能够创建共享的长期运行工作流,并在组织权限内处理复杂任务。