摘要
OpenAI 发布 GPT-4,一个大型多模态模型,接受图像和文本输入,在专业和学术基准测试中表现出人类水平的性能,在各种评估指标上的表现明显优于 GPT-3.5。
我们创建了 GPT-4,这是 OpenAI 在深度学习规模化方面努力的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,输出文本),虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中表现出人类水平的性能。
查看缓存全文
缓存时间:
2026/04/20 14:46
# GPT-4
来源:https://openai.com/index/gpt-4-research/
OpenAI 我们开发了 GPT-4,这是 OpenAI 深度学习规模化努力中的最新里程碑。GPT-4 是一个大规模多模态模型(接受图像和文本输入,输出文本),虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中展现了人类水平的性能。例如,它通过了一场模拟律师执业考试,成绩在测试者中排名前 10%;相比之下,GPT-3.5 的成绩在后 10%。我们花费了 6 个月时间,利用对抗性测试计划和 ChatGPT 的经验,对 GPT-4 进行迭代对齐,在真实性、可控性和拒绝超出安全边界的请求方面取得了迄今为止最好的成果(虽然远非完美)。
在过去两年中,我们重建了整个深度学习堆栈,并与 Azure 合作,从零开始为我们的工作负载共同设计了一台超级计算机。一年前,我们将 GPT-3.5 作为该系统的首次"测试运行"进行了训练。我们发现并修复了一些 bug,并改进了理论基础。因此,我们的 GPT-4 训练运行(对我们而言!)有史以来最稳定,成为我们第一个能够提前准确预测训练性能的大型模型。随着我们继续专注于可靠的规模化,我们致力于完善我们的方法论,帮助我们提前越来越远地预测和准备未来的能力——我们认为这对安全至关重要。
我们通过 ChatGPT 和 API(有等候名单)发布了 GPT-4 的文本输入功能。为了让图像输入功能更广泛可用,我们开始与单一合作伙伴密切协作。我们还开源了 OpenAI Evals,这是我们用于自动评估 AI 模型性能的框架,允许任何人报告我们模型中的不足之处,以指导进一步的改进。
在日常对话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够高的阈值时,差异才会显现出来——GPT-4 更加可靠、富有创意,能够处理比 GPT-3.5 复杂得多的指令。
为了理解两个模型之间的差异,我们在各种基准测试上进行了测试,包括模拟最初为人类设计的考试。我们使用了最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买了 2022-2023 年版本的练习题。我们没有针对这些考试进行特定训练。虽然考试中的少数问题在模型训练期间可能被看过,但我们相信结果具有代表性——有关详情,请参见我们的技术报告。
我们还在为机器学习模型设计的传统基准测试上评估了 GPT-4。GPT-4 的表现大幅超越现有的大型语言模型,以及大多数最先进(SOTA)的模型,后者可能包括基准测试特定的优化或额外的训练协议:
许多现有的机器学习基准测试都是用英文编写的。为了初步了解 GPT-4 在其他语言中的能力,我们使用 Azure 翻译功能将 MMLU 基准测试——一套包含 57 个科目的 14,000 道选择题——翻译成多种语言。在测试的 26 种语言中的 24 种中,GPT-4 的表现超过了 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英文版本性能,包括对于拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:
我们也在内部使用 GPT-4,在支持、销售、内容审核和编程等功能中产生了很大影响。我们也在使用它来帮助人类评估 AI 输出,这是我们对齐策略的第二阶段的开始。
GPT-4 可以接受文本和图像的提示,这与仅限文本的设置类似,让用户可以指定任何视觉或语言任务。具体来说,它可以根据包含穿插文本和图像的输入生成文本输出(自然语言、代码等)。在一系列领域中——包括包含文本和照片、图表或截图的文档——GPT-4 表现出与仅文本输入相似的能力。此外,它可以通过为仅文本语言模型开发的测试时间技术进行增强,包括少样本和链式思维提示。图像输入仍是研究预览版,尚未公开提供。
我们通过在一套有限的标准学术视觉基准测试上进行评估来预览 GPT-4 的性能。然而,这些数字并不能完全代表其能力的范围,因为我们不断发现模型能够处理的新的令人兴奋的任务。我们计划很快发布进一步的分析和评估数据,以及对测试时间技术影响的详细调查。
我们一直在逐个方面落实我们关于定义 AI 行为的帖子中概述的计划,包括可控性。与具有固定冗长度、语气和风格的经典 ChatGPT 个性不同,开发者(以及很快的 ChatGPT 用户)现在可以通过在"系统"消息中描述这些方向来规定其 AI 的风格和任务。系统消息允许 API 用户在一定范围内显著定制其用户体验。我们会继续在这方面进行改进(我们特别知道系统消息是"越狱"当前模型最容易的方式,即遵守范围的准确性并不完美),但我们鼓励您尝试一下并告诉我们您的想法。
尽管能力出众,GPT-4 与早期的 GPT 模型有类似的局限性。最重要的是,它仍然不是完全可靠的(它"幻想"事实并犯推理错误)。在使用语言模型输出时应格外小心,特别是在高风险环境中,具体的协议(如人工审查、与附加背景的联系,或完全避免高风险用途)应与特定用例的需求相匹配。
虽然仍是一个真实问题,但 GPT-4 相比之前的模型(它们本身在每次迭代中都在改进)显著减少了幻想。GPT-4 在我们的内部对抗性真实性评估中的得分比最新的 GPT-3.5 高 40%:
我们在 TruthfulQA 等外部基准测试中取得了进展,该测试评估模型将事实与对抗性选择的不正确陈述区分开来的能力。这些问题与在统计上有吸引力的事实不正确的答案配对。
GPT-4 基础模型在这项任务上的表现仅略优于 GPT-3.5;然而,在 RLHF 后训练之后(应用我们与 GPT-3.5 相同的过程),存在很大的差异。通过检查以下一些示例,GPT-4 拒绝选择常见的说法(你不能教老狗新把戏),但它仍然可能错过细微的细节(猫王不是演员的儿子)。
该模型的输出中可能存在各种偏见——我们已在这方面取得进展,但仍有更多工作要做。根据我们最近的博客文章,我们的目标是使我们构建的 AI 系统具有反映广泛用户价值观的合理默认行为,允许在广泛范围内定制这些系统,并获得关于这些范围应该是什么的公众意见。
GPT-4 通常缺乏在其数据的绝大多数部分截止(2021 年 9 月)之后发生的事件的知识,并且不从其经验中学习。它有时会犯简单的推理错误,这些错误似乎与在许多领域中的能力不相符,或在接受用户的明显错误陈述时过于容易相信。有时它在困难问题上的失败方式与人类相同,例如在其生成的代码中引入安全漏洞。
GPT-4 在其预测中也可能非常确信但错误,在可能出错时不注意检查工作。有趣的是,基础预训练模型的校准度很高(其对答案的预测信心通常与正确的概率相匹配)。然而,通过我们目前的后训练过程,校准度降低了。
我们一直在对 GPT-4 进行迭代,从训练初期就使其更加安全并更好地对齐,包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监控和执行。
GPT-4 带来的风险与之前的模型相似,例如生成有害建议、有缺陷的代码或不准确的信息。然而,GPT-4 的额外能力带来了新的风险表面。为了理解这些风险的范围,我们邀请了来自 AI 对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的 50 多位专家对模型进行对抗性测试。他们的发现使我们能够专门测试需要专业知识才能评估的高风险领域中的模型行为。这些专家的反馈和数据输入到我们的模型缓解措施和改进中;例如,我们收集了额外的数据来改进 GPT-4 拒绝关于如何合成危险化学品的请求的能力。
GPT-4 在 RLHF 训练期间纳入了额外的安全奖励信号,以减少有害输出(如我们的使用政策定义的)。通过训练模型拒绝此类内容的请求来实现。奖励由 GPT-4 零样本分类器在安全相关提示上判断安全边界和完成风格提供。为了防止模型拒绝有效请求,我们从各种来源(例如标记的生产数据、人工红队、模型生成的提示)收集多样化的数据集,并对允许和禁止的类别应用安全奖励信号(具有正值或负值)。
与 GPT-3.5 相比,我们的缓解措施已显著改进了 GPT-4 的许多安全属性。与 GPT-3.5 相比,我们减少了模型对禁止内容请求的响应倾向 82%,GPT-4 在 29% 的情况下更符合我们的政策来响应敏感请求(例如医疗建议和自残)。
总体而言,我们的模型级别干预措施增加了引发不良行为的难度,但仍然可能。此外,仍然存在"越狱"来生成违反我们使用政策的内容。随着 AI 系统的"每个 token 的风险"增加,实现这些干预措施的极高可靠性将变得至关重要;目前重要的是用部署时安全技术(如滥用监控)来补充这些局限性。
GPT-4 及其后续模型有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作,以改进我们如何理解和评估潜在影响,以及为未来系统中可能出现的危险能力构建评估。我们很快会分享更多关于 GPT-4 和其他 AI 系统的潜在社会和经济影响的想法。
与之前的 GPT 模型一样,GPT-4 基础模型经过训练来预测文档中的下一个单词,并使用公开可用的数据(如互联网数据)以及我们授权的数据进行训练。这些数据是一个网络规模的数据语料库,包括数学问题的正确和不正确解决方案、强弱推理、自相矛盾和一致的陈述,代表了各种意识形态和思想。
因此,当提示一个问题时,基础模型可以以多种方式回应,可能远离用户的意图。为了在安全边界内将其与用户的意图对齐,我们使用强化学习和人类反馈(RLHF)来微调模型的行为。
请注意,模型的能力似乎主要来自预训练过程——RLHF 不会改进考试成绩(在没有积极努力的情况下,它实际上会降低)。但模型的可控性来自后训练过程——基础模型甚至需要提示工程来了解它应该回答问题。
GPT-4 项目的一个主要焦点一直是构建一个可以可预测地扩展的深度学习堆栈。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定模型调整是不可行的。我们开发了在多个规模上具有非常可预测行为的基础设施和优化。为了验证这种可扩展性,我们通过外推使用相同方法但使用计算量少 10,000 倍的训练模型,提前准确预测了 GPT-4 在我们内部代码库(不是训练集的一部分)上的最终损失:
既然我们能够准确预测我们在训练期间优化的指标(损失),我们开始开发方法论来预测更多可解释的指标。例如,我们成功预测了 HumanEval 数据集子集上的通过率,外推来自计算量少 1,000 倍的模型:
我们认为准确预测未来机器学习能力是安全的重要组成部分,相对于其潜在影响而言没有获得足够的关注(尽管我们受到了多个机构努力的鼓励)。我们正在扩大工作,开发为社会提供更好指导的方法,说明对未来系统可以期待什么,我们希望这成为该领域的共同目标。
我们正在开源 OpenAI Evals,这是我们用于创建和运行基准测试的软件框架,用于评估像 GPT-4 这样的模型,同时逐个样本检查其性能。我们使用 Evals 来指导我们的模型开发(既识别不足之处又防止回归),我们的用户可以将其应用于跟踪模型版本间的性能(现在将定期发布)和不断发展的产品集成。例如,Stripe 已使用 Evals 来补充他们的人工评估,以测量其 GPT 动力文档工具的准确性。
由于代码是全开源的,Evals 支持编写新类来实现自定义评估逻辑。然而,在我们自己的经验中,许多基准测试遵循几个"模板"之一,所以我们还包含了在内部最有用的模板(包括"模型分级评估"的模板——我们发现 GPT-4 在检查自己的工作方面出奇地有能力)。一般来说,构建新评估的最有效方式将是实例化其中一个模板。
相似文章
OpenAI Blog
OpenAI发布GPT-4o,一个功能全面的多模态模型,可实时处理音频、视觉、文本和视频,平均音频响应延迟为232毫秒。该模型在文本和代码能力上与GPT-4 Turbo相当,同时显著改进了多语言、音频和视觉功能,API成本降低50%。
OpenAI Blog
OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。
OpenAI Blog
OpenAI 推出了 GPT-4.5,这是他们迄今为止最大、最强的聊天模型,作为研究预览版提供给 Pro 用户和开发者使用。该模型通过扩展计算和数据来推进无监督学习,相比 GPT-4o 展现出更好的事实准确性、更少的幻觉现象,以及对人类意图的更深层理解。
OpenAI Blog
OpenAI 发布 GPT-4o,一款新的旗舰模型,能够在音频、视觉和文本等多种模态中进行实时推理。
OpenAI Blog
# GPT-4.5 系统卡
来源:[https://openai.com/index/gpt-4-5-system-card/](https://openai.com/index/gpt-4-5-system-card/)
我们正在发布 OpenAI GPT-4.5 的研究预览版,这是我们迄今为止规模最大、知识最丰富的模型。GPT-4.5 建立在 GPT-4o 的基础上,进一步扩展了预训练规模,设计目标是比我们强大的 STEM 焦点推理模型具有更广泛的适用性。我们采用新的监督技术结合传统方法(如监督微调 (SFT))来训练该模型