介绍 GPT-5

OpenAI Blog 模型

摘要

OpenAI 推出 GPT-5,这是 AI 智能的重大飞跃,在代码编写、数学、写作、健康和视觉感知等方面展现了最先进的性能。这个统一系统包括一个高效的智能模型、一个深度推理模型(GPT-5 thinking)和一个实时路由器,用于最优响应选择。

我们推出 GPT-5,这是我们迄今为止最强大的 AI 系统。GPT-5 在智能上相比我们之前的所有模型都实现了重大飞跃,在代码编写、数学、写作、健康、视觉感知等众多领域都展现了最先进的性能。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:47

# 推介 GPT-5 来源: https://openai.com/index/introducing-gpt-5/ 我们推介 GPT-5,这是我们迄今最强大的 AI 系统。GPT-5 在智能方面相比我们之前所有的模型都实现了质的飞跃,在编码、数学、写作、健康、视觉感知等方面都具有业界最先进的表现。这是一个统一的系统,它能够智能地判断何时快速回应,何时需要深度思考来提供专家级的答案。GPT-5 向所有用户开放,Plus 订阅用户可获得更高的使用额度,Pro 订阅用户可以使用 GPT-5 pro,这是一个具有扩展推理能力的版本,能提供更全面、更准确的回答。 GPT-5 是一个统一的系统,包含一个**聪慧高效的模型**用于回答大多数问题、一个**深度推理模型**(GPT-5 thinking)用于解决复杂问题,以及一个**实时路由器**,它能根据对话类型、复杂度、工具需求和你的明确意图(例如,如果你在提示中说"仔细思考这个问题")快速决定使用哪个模型。路由器通过真实信号(包括用户的模型切换、响应偏好评分和测量的正确性)持续训练和改进。一旦达到使用限额,每个模型的迷你版本会处理剩余的查询。在不久的将来,我们计划将这些功能集成到一个单一的模型中。 GPT-5 不仅在基准测试中超越以往的模型,回答问题的速度也更快,但最重要的是,它对现实世界查询更有帮助。我们在减少幻觉、改进指令遵循和最小化媚俗行为方面取得了重大进展,同时在 ChatGPT 最常见的三个用途上提升了 GPT-5 的表现:写作、编码和健康。 GPT-5 是我们迄今最强大的编码模型。它在**复杂前端生成**和**调试大型代码库**方面表现尤其突出。它通常能在单个提示中创建出精美且响应式的网站、应用和游戏,具有美学敏感性,直观而得体地将想法转化为现实。早期测试者也注意到了它的设计选择,对间距、字体排版和空白等方面有更好的理解。详细了解 GPT-5 为开发者带来的功能,请访问 https://openai.com/index/introducing-gpt-5-for-developers/。 以下是 GPT-5 用单个提示创建的一些示例: GPT-5 是我们目前最有能力的写作助手,能够帮助你将粗糙的想法打磨成**引人共鸣、具有文学深度和节奏感的精美写作**。它能更可靠地处理涉及结构歧义的写作,例如维持无韵脚的五音步诗行或流畅的自由诗,既尊重形式又兼具表达的清晰性。这些改进的写作能力意味着 ChatGPT 在帮助你完成日常任务(如起草和编辑报告、电子邮件、备忘录等)方面表现得更好。GPT-5 和 GPT-4o 的写作风格可在下表进行对比。 GPT-5 是我们迄今最擅长处理健康相关问题的模型,使用户能够了解并倡导自己的健康。该模型在我们今年早些时候发布的**HealthBench** (https://openai.com/index/healthbench/) 上的得分远高于任何以往的模型,该评估基于现实场景和医生定义的标准。与以往的模型相比,它更像是一个主动的思想伙伴,能够主动标记潜在的关切并提出问题以提供更有帮助的答案。该模型现在还提供了更精确和可靠的响应,能够根据用户的背景、知识水平和地理位置进行调整,使其能在各种场景中提供更安全、更有帮助的响应。重要的是,ChatGPT 不能替代医学专业人士——可以把它看作是一个伙伴,帮助你理解结果、在与医疗提供者的对话中提出正确的问题,以及在做出决定时权衡各种选择。 你可以在这些示例中看到 GPT-5 在各个领域相比我们之前模型的优势——更丰富、更详细、更实用: GPT-5 在各个领域都聪慧得多,这体现在它在学术和人工评估基准上的表现中,尤其是在数学、编码、视觉感知和健康方面。它在**数学(AIME 2025 无工具条件下 94.6%)、现实世界编码(SWE-bench Verified 74.9%,Aider Polyglot 88%)、多模态理解(MMMU 84.2%)和健康(HealthBench Hard 46.2%)**方面创造了新的技术水平,这些进步体现在日常使用中。使用 GPT-5 pro 的扩展推理能力,该模型还在 **GPQA** 上创造了新的技术水平,无工具条件下得分 88.4%。 *\*带工具的 AIME 结果不应直接与无工具访问的模型性能进行比较;它们是 GPT-5 如何有效利用可用工具的示例。* *所有 SWE-bench 评估运行都使用固定的子集 n=477 验证任务,这些任务已在我们的内部基础设施上得到验证。* GPT-5 在指令遵循和智能体工具使用基准上表现出显著的进步,这类能力使其能够可靠地执行多步骤请求、跨不同工具进行协调,以及适应上下文的变化。在实践中,这意味着它在处理复杂、不断演变的任务方面更出色;GPT-5 能更忠实地遵循你的指令,并使用其可用的工具更多地端到端地完成工作。 该模型在各种多模态基准上表现突出,涵盖视觉、视频、空间和科学推理。更强大的多模态性能意味着 ChatGPT 能更准确地对图像和其他非文本输入进行推理——无论是解释图表、总结演示文稿的照片,还是回答有关图表的问题。 GPT-5 也是我们在内部基准上表现最好的模型,该基准衡量了在复杂、经济价值高的知识工作方面的表现。在使用推理时,GPT-5 在大约一半的案例中与专家相当或更优,同时在跨越40多个职业(包括法律、物流、销售和工程)的任务中超越 o3 和 ChatGPT Agent。 *上述评估的方法:GPT-4o 的结果反映了截至 2025 年 8 月 ChatGPT 中模型的最新版本。所有模型都在高"推理效力"设置下进行评估。推理效力在 ChatGPT 中可以变化,高代表用户使用该模型时可能经历的上限。* GPT-5 用更少的思考时间获得更多价值。在我们的评估中,GPT-5(带思考)的表现优于 OpenAI o3,同时在视觉推理、智能体编码和研究生级科学问题求解等能力上输出令牌数减少 50-80%。 GPT-5 是在 Microsoft Azure AI 超级计算机上训练的。 GPT-5 产生幻觉的可能性比我们之前的模型低得多。在启用网络搜索的匿名提示上(代表 ChatGPT 生产流量),GPT-5 的响应包含事实错误的可能性比 GPT-4o 低约 45%,使用思考时,GPT-5 的响应包含事实错误的可能性比 OpenAI o3 低约 80%。 我们特别投入精力,使我们的模型在对复杂的开放式问题进行推理时更加可靠。因此,我们添加了新的评估来对开放式事实性进行压力测试。我们测量了 GPT-5 在两个公共事实性基准中对开放式寻求事实的提示进行思考时的幻觉率:LongFact (https://arxiv.org/abs/2403.18802)(概念和对象)和 FACtScore (https://arxiv.org/abs/2305.14251)。在所有这些基准中,"GPT-5 thinking"显示幻觉大幅下降——比 o3 少约六倍——这标志着在生成一致准确的长篇内容方面的明显飞跃。我们在这些基准上的评估的实现和评分细节可以在系统卡 (https://openai.com/index/gpt-5-system-card/) 中找到。 除了改进的事实性外,GPT-5(带思考)更诚实地向用户传达其行动和能力——特别是对于不可能、定义不清或缺少关键工具的任务。在训练期间,推理模型可能会学会谎报任务的成功完成或对不确定的答案过度自信,以获得高奖励。例如,为了测试这一点,我们从多模态基准 CharXiv 的提示中移除了所有图像,发现 OpenAI o3 仍然对不存在的图像给出了 86.7% 的自信回答,而 GPT-5 仅为 9%。 进行推理时,GPT-5 能更准确地认识到任务何时无法完成,并清晰地传达其局限性。我们评估了涉及不可能的编码任务和缺失的多模态资产的设置中的欺骗率,发现 GPT-5(带思考)在各个方面的欺骗性都低于 o3。在代表真实生产 ChatGPT 流量的大量对话集上,我们将欺骗率从 o3 的 4.8% 降低到 GPT-5 推理响应的 2.1%。虽然这对用户来说是一个有意义的改进,但仍有更多工作要做,我们继续进行研究以改进我们模型的事实性和诚实性。更多细节可以在系统卡 (https://openai.com/index/gpt-5-system-card/) 中找到。 GPT-5 推进了安全的前沿。过去,ChatGPT 主要依赖基于拒绝的安全训练:基于用户的提示,模型应该要么同意,要么拒绝。虽然这种类型的训练对于明确恶意的提示很有效,但在用户意图不明确或信息可以以良性或恶意方式使用的情况下可能会有困难。拒绝训练对于病毒学等双用途领域特别不灵活,其中良性请求可以在高级别上安全完成,但如果以详细方式完成可能会被坏行为者利用。 对于 GPT-5,我们引入了一种新形式的安全训练——安全完成——它教导模型在尽可能有帮助的同时仍停留在安全边界内。有时,这可能意味着部分回答用户的问题或仅在高级别进行回答。如果模型需要拒绝,GPT-5 被训练为透明地告诉你它为什么拒绝,以及提供安全的替代品。在受控实验和我们的生产模型中,我们发现这种方法更加微妙,能够更好地处理双用途问题、对模糊意图有更强的稳健性,以及更少不必要的过度拒绝。阅读更多关于我们新安全训练方法的信息,以及关于方法、指标和结果的全部细节,请参阅我们的安全完成论文 (https://openai.com/index/gpt-5-safe-completions/)。 跨提示意图类型的安全性和有帮助性(给定安全的响应)。GPT-5(带思考)在所有提示意图类型上都表现出更高的安全性和更好的有用性。 总体而言,GPT-5 **不那么过分地表示同意**,使用**更少不必要的表情符号**,并在跟进中表现得更加微妙和深思熟虑,相比 GPT-4o。它应该感觉不那么像"与 AI 交谈",更像是**与拥有博士级智力的有帮助的朋友聊天**。 今年早些时候,我们发布了 GPT-4o 的更新 (https://openai.com/index/sycophancy-in-gpt-4o/),不幸的是使模型过度媚俗,或过分献殷勤和顺从。我们快速回滚了这一变化 (https://openai.com/index/expanding-on-sycophancy/),并随后通过以下方式致力于理解和减少这种行为: - 开发新的评估来测量媚俗水平 - 改进我们的训练,使模型不那么媚俗——例如,添加通常会导致过度同意的例子,然后教它不要那样做。 在使用专门设计来引发媚俗回应的提示的有针对性的媚俗评估中,GPT-5 有意义地减少了媚俗回应(从 14.5% 降至不到 6%)。有时,减少媚俗可能会伴随用户满意度的降低,但我们所做的改进将媚俗削减了一半以上,同时还带来了其他可测量的收益,所以用户继续能够进行高质量、建设性的对话——这与我们帮助人们良好使用 ChatGPT (https://openai.com/index/how-we're-optimizing-chatgpt/) 的目标一致。 GPT-5 在指令遵循方面明显更好,我们看到它在遵循自定义指令能力上的相应改进。 我们还为所有 ChatGPT 用户推出了四个新预设人设的研究预览,这是由可指导性改进所实现的。这些人设最初可用于文本聊天,稍后将推出语音版本,让你设置 ChatGPT 的交互方式——无论是简洁专业、体贴支持,还是有点讽刺——无需编写自定义提示。四个初始选项——Cynic(愤世嫉俗者)、Robot(机器人)、Listener(倾听者)和 Nerd(极客)——是可选择加入的、可随时在设置中调整的,并旨在匹配你的沟通风格。 所有这些新人设都符合或超过了我们在减少媚俗内部评估中的标准。 我们期待根据早期反馈学习和迭代。 我们决定将"GPT-5 thinking"模型视为生物和化学领域的高能力,并实施了强有力的安保措施以充分最小化相关风险。我们在我们的准备框架 (https://openai.com/index/updating-our-preparedness-framework/) 下用我们的安全评估严格测试了该模型,与 CAISI 和英国 AISI 等合作伙伴完成了 5,000 小时的红队测试。 与我们对 ChatGPT Agent 的方法类似,虽然我们没有确凿的证据表明该模型可能有意义地帮助新手造成严重的生物伤害——我们定义的高能力阈值 (https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-68cdfbddebcd/preparedness-framework-v2.pdf)——我们采取了预防性方法,现在就启动了所需的保障措施,以便在这类能力可用时增加准备就绪。因此,"GPT-5 thinking"具有一个健全的安全堆栈,具有用于生物学的多层次防御系统:全面的威胁建模、通过我们新的安全完成范式训练模型不输出有害内容、始终在线的分类器和推理监控,以及明确的执行管道。 在我们的系统卡 (https://openai.com/index/gpt-5-system-card/) 中了解更多关于 GPT-5 的健全安全方法。 对于最具挑战性、最复杂的任务,我们还发布了 GPT-5 pro,取代 OpenAI o3-pro,这是一个 GPT-5 的变体,思考时间更长,使用扩展但高效的并行测试时间计算,以提供最高质量和最全面的答案。GPT-5 pro 在 GPT-5 家族中多个具有挑战性的智能基准上实现了最高性能,包括在包含极其困难的科学问题的 GPQA 上的最先进的性能。 在超过 1000 个经济价值高、现实世界推理提示的评估中,外部专家在 67.8% 的时间里更倾向于选择 GPT-5 pro 而不是"GPT-5 thinking"。GPT-5 pro 减少了 22% 的重大错误,并在健康、科学、数学和编码方面表现突出。专家将其响应评为相关、有用和全面的。 GPT-5 是 ChatGPT 中的新默认选项,为登录用户替代了 GPT-4o、OpenAI o3、OpenAI o4-mini、GPT-4.1 和 GPT-4.5。只需打开 ChatGPT 并输入你的问题;GPT-5 会处理其余的工作**,**在响应受益时自动应用推理。付费用户仍可以从模型选择器中选择**"GPT-5 Thinking"**,或在提示中输入类似"仔细思考这个问题"的内容,以确保在生成响应时使用推理。 GPT-5 今天开始向所有 Plus、Pro、Team 和 Free 用户推出,企业用户的访问权限

相似文章

GPT-5.5 正式发布

OpenAI Blog

OpenAI 发布了 GPT-5.5,这是其前沿 AI 模型的重大升级,在保持高效与速度的同时,在智能体编码、研究以及多步骤任务执行等方面具备更强的能力。

推出 GPT-5.2

OpenAI Blog

OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。

面向开发者推出GPT-5.1

OpenAI Blog

OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。

为开发者推出 GPT-5

OpenAI Blog

OpenAI 在其 API 平台发布 GPT-5,这是一款最先进的模型,在 SWE-bench Verified 上达到 74.9% 的成绩,在编码、智能体任务和长上下文推理方面表现卓越。此次发布包含三个模型规格(gpt-5、gpt-5-mini、gpt-5-nano)以及新的 API 功能,如详细程度控制、最小推理模式和自定义工具。

GPT-5 和工作的新时代

OpenAI Blog

OpenAI 宣布推出 GPT-5,这是他们最先进的模型,统一了 GPT-4o、o 系列推理、智能体和高级数学等功能,将立即向 Team 用户推出,并为开发者提供 API 访问。此次发布是一个重大里程碑,已有 7 亿周活跃 ChatGPT 用户和 500 万付费企业用户在使用 OpenAI 的技术。