OpenAI 技术详解

OpenAI Blog 2023/10/11 07:00 新闻

openai gpt-4 language-models ai-safety pre-training post-training

摘要

OpenAI 发布了一篇关于其核心技术的解读文章，详细介绍了 GPT-4 等语言模型是如何通过预训练（从海量文本数据中学习）和后训练（与人类价值观对齐和安全实践）开发而成的。文章强调了 OpenAI 的非营利使命结构，并解释了原始基础模型与经过优化、可用版本之间的区别。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:43

# OpenAI 的技术讲解来源：https://openai.com/global-affairs/openai-technology-explained/ OpenAI 成立于 2015 年，初衷是以非营利组织的身份确保通用人工智能——简称（https://openai.com/charter/）AGI，即至少与人类一样聪慧的 AI——能惠及全人类。我们研究、开发并发布前沿 AI（https://openai.com/global-affairs/openai-technology-explained/#artificial-intelligence-ai）技术，以及有关 AI 安全、对齐和治理的工具和最佳实践。OpenAI 至今仍由非营利组织管理：我们将使命置于利润之上，限制向员工和投资者的财务回报，并将超过该限额的未来利润归还给非营利组织。这种独特的企业结构使我们与其他科技公司的激励机制不同。我们的目标不是销售最多的产品，而是努力创造一个让所有人都能从 AI 的社会、经济和技术机遇中受益的世界。开发像 GPT-4 这样的先进语言模型需要（1）教会它智能能力，例如预测、推理和解决问题的能力，以及（2）使其与人类价值观和偏好相一致。前者通过称为"预训练"的过程完成，该过程涉及在数月内向模型展示大量人类知识。为了随后将人类选择融入模型，我们使用第二步，称为"微调"，使模型更安全且更易使用。 **预训练**通过向模型展示大量文本并让它尝试预测大量序列中每个序列的下一个单词来教授模型语言。这需要大量计算，因为模型会审查、分析和从数万亿个单词中学习。我们构建超级计算机来训练我们的基础模型，训练单个新的基础模型可能需要占用超级计算机数个月。通过这个广泛的过程，模型不仅学会了单词如何在语法上组合在一起，还学会了单词如何协同工作来形成更高层次的想法，最终学会了单词序列如何形成结构化思想或提出连贯的问题。例如，当我们想到"云"这个词时，我们可能也会想到相关的词汇如"天空"和"雨"；当给定一个句子如"幸福的秘诀是"时，我们可能会想到各种哲学理念。通过获得预测下一个单词的流利度，模型从而学习了概念和智能的基本要素。这个过程的产出——基础模型——具有解决其训练数据中从未出现过的新问题的非凡能力，甚至涵盖多种语言。然而，单靠基础模型还不能直接使用。基础模型功能强大且灵活。它们聪慧且令人惊讶，但不一定有用或安全。基础模型不容易交互：例如，如果你要求 GPT-4 基础模型"写一个关于公主的故事..."，它通常不会写一个故事。相反，它会扩展你的陈述，预测它如何继续。它可能会输出，例如："...关于一个喜欢马的公主。"基础模型也没有防护措施来防止它输出不需要的内容，例如仇恨或暴力材料。虽然我们在预训练数据集中过滤了不需要的内容，但这种缓解措施过于粗糙，无法对模型进行有针对性的更改，甚至如果它防止模型理解*不*要说或做什么时可能会适得其反。为了将人类价值观灌输到模型中，包括什么是有用的和什么是适合说的，我们研究并开发了一个我们称为微调的过程中的对齐和安全技术。 **微调**是我们如何将人类选择融入我们的模型，并将其转变为有用、有效和更安全的工具的方式。我们教模型以人们发现更有用的方式做出响应，并拒绝以我们认为可能有害的方式做出响应。微调需要在研究、人员、设计选择和数据创建方面的大量投入。这是 OpenAI 的一个活跃研究和投资领域。我们还相信许多超出我们公司范围的人员（https://openai.com/index/democratic-inputs-to-ai/）将参与创建数据和做出设计决策以反映人类价值观的工作。微调导致对模型的有针对性的更改，使用相对较小且精心设计的数据集来表示理想行为。我们通过让人们编写示例答案和评估模型提供的答案，然后在后续训练过程中将这些示例和评级反馈给模型来完成此操作。我们开创了这些技术，包括来自人类反馈的强化学习 (RLHF)，现在已成为行业标准。我们使用 RLHF 来教模型遵循指令，降低它返回不准确内容的可能性，并添加安全功能。在公开发布 GPT-4 之前，我们花了 6 个月时间迭代微调。在此期间，我们开发了技术来教我们的模型拒绝响应我们认为可能导致潜在危害的请求。例如，如果被要求提供如何制造炸弹的说明，模型将拒绝响应。根据我们的内部评估，相比于前一代模型 GPT-3.5，我们使 GPT-4 响应不允许内容请求的可能性降低了 82%。我们还利用这段时间将其产生事实性响应的可能性提高了 40%，教它以对话方式做出响应（https://openai.com/index/chatgpt/），并改进了其在低资源语言上的性能，例如与冰岛的合作伙伴关系（https://openai.com/index/government-of-iceland/）。我们继续开发微调技术（在新窗口中打开）（https://cdn.openai.com/papers/gpt-4-system-card.pdf）以更好地在我们的模型中反映人类选择。例如，我们的一些方法使人们能够描述系统应遵循的规则，而不必对更好或更差的行为示例进行评级。除了我们自己进行的微调之外，我们还为客户提供"微调"我们的模型的能力，以实现他们的特定目标，例如用他们的专有语言编写软件代码、向其教授特定行业的知识或调整其语调以符合他们的品牌。客户通过准备演示他们寻求实现的行为的数据并通过我们的 API 提交进行额外微调来完成此操作。假设数据通过了我们的安全检查，我们随后仅将生成的微调模型提供给该客户。与其他 API 流量类似，我们使用下面描述的监控和检测系统来帮助检测微调模型是否违反了我们的使用政策（https://openai.com/policies/usage-policies/）。除了通过微调实现安全外，我们还进行严格的测试、与外部专家沟通以获取反馈、构建和强化安全和监控系统，并提供资源帮助人们负责任地使用我们的模型。这种整体的安全方法使我们能够实施和执行我们的使用政策（https://openai.com/policies/usage-policies/），该政策禁止以可能造成伤害的方式使用我们的模型，例如生成仇恨、骚扰或暴力内容、用于政治宣传或用于生成恶意软件。 **红队测试和评估。**我们评估每个主要新模型的安全风险和潜在社会危害，如偏见和歧视。我们进行内部和外部红队测试（https://openai.com/index/moving-ai-governance-forward/），内部测试模型的风险，并向来自各行各业的专家提供早期访问权限，以帮助探测系统、映射和评估风险。我们使用这些评估来进一步指导模型和安全系统的开发和改进，并公开发布我们的发现。 **安全监控系统。**我们构建和实施监控系统，帮助检测不需要的内容并补充对特定事件的人工审查。当这些系统检测到内容违规时，我们可能采取多种行动，包括拒绝响应、标记事件以供人工审查，或在极端情况下，暂停用户。内容分类器由微调的语言模型支持，我们继续研究如何增加其覆盖范围、效率和准确性，最近探索使用 GPT-4 开发审核系统（https://openai.com/index/using-gpt-4-for-content-moderation/）。 **供用户使用的工具。**我们为用户和在我们模型基础上构建应用程序的开发者开发文档和工具，以使他们能够安全地使用 AI。在发布新的前沿系统之前，我们发布一份报告，描述模型或系统的功能、局限性以及适当和不适当的使用领域（例如，GPT-4（在新窗口中打开）（https://cdn.openai.com/papers/gpt-4-system-card.pdf）和 GPT-4V（https://openai.com/index/gpt-4v-system-card/）的系统卡）。我们提供免费的审核 API（在新窗口中打开）（https://platform.openai.com/docs/guides/moderation），以便用户可以执行他们自己的使用政策。我们还发布了关于我们的安全系统的研究（在新窗口中打开）（https://arxiv.org/abs/2208.03274）。 **从反馈中学习。**我们相信从反馈中学习和做出响应是随着时间推移构建安全 AI 系统和实现我们使命的关键组成部分。我们根据用户输入和反馈持续改进模型输出、审核系统和使用政策。我们也在进行持续的利益相关者对话，讨论 AI 技术最有益的采用和适应。机器学习是一种人工智能方法，其中计算机系统可以根据信息或实验学习完成任务，而不是被逐步编程。例如，机器学习系统可以通过查看不同的猫的图片并学习这些图片的特征来学习绘制猫的图片，而不是被逐行指示猫的样子。或者，系统可以通过实验和因成功尝试而获得奖励来学习玩视频游戏，而不是被提供游戏规则和如何完成游戏的说明。

相似文章

更好的语言模型及其影响

OpenAI Blog

OpenAI 推出 GPT-2，这是一个拥有 15 亿参数的基于 Transformer 的语言模型，在 40GB 的互联网文本上进行训练，在语言建模基准上达到了最先进的性能，并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑，仅公开发布了较小的模型和技术论文，而非完整的训练模型。

从 GPT-4 中提取概念

OpenAI Blog

OpenAI 推出稀疏自编码器作为从 GPT-4 等大型语言模型中提取和解释概念的方法，解决了理解神经网络行为这一根本挑战。他们发布了研究论文、代码和特征可视化工具，帮助研究人员大规模训练自编码器，并通过更好的可解释性提高 AI 安全性。

个性化 AI 的力量

OpenAI Blog

OpenAI 讨论了个性化 AI 的重要性和透明度，强调了他们发布的 Model Spec 文档，该文档解释了 ChatGPT 的行为指南和设计选择，以确保用户了解模型响应的原因。

理解大语言模型的能力、限制和社会影响

OpenAI Blog

来自 OpenAI 和斯坦福大学研究人员的全面讨论总结，涵盖 GPT-3 的技术能力、限制以及跨越计算机科学、语言学、哲学和政策等多个学科的更广泛社会影响。

OpenAI GPT-4.5 System Card

OpenAI Blog

# GPT-4.5 系统卡来源：[https://openai.com/index/gpt-4-5-system-card/](https://openai.com/index/gpt-4-5-system-card/) 我们正在发布 OpenAI GPT-4.5 的研究预览版，这是我们迄今为止规模最大、知识最丰富的模型。GPT-4.5 建立在 GPT-4o 的基础上，进一步扩展了预训练规模，设计目标是比我们强大的 STEM 焦点推理模型具有更广泛的适用性。我们采用新的监督技术结合传统方法（如监督微调 (SFT)）来训练该模型

相似文章

更好的语言模型及其影响

从 GPT-4 中提取概念

个性化 AI 的力量

理解大语言模型的能力、限制和社会影响

OpenAI GPT-4.5 System Card

提交意见反馈