Hello GPT-4o

OpenAI Blog 2024/05/13 10:05 模型

gpt-4o multimodal audio-vision-text openai flagship-model real-time-interaction

摘要

OpenAI发布GPT-4o，一个功能全面的多模态模型，可实时处理音频、视觉、文本和视频，平均音频响应延迟为232毫秒。该模型在文本和代码能力上与GPT-4 Turbo相当，同时显著改进了多语言、音频和视觉功能，API成本降低50%。

我们宣布推出GPT-4 Omni，我们的新旗舰模型，可以实时处理音频、视觉和文本的推理任务。

查看缓存全文

缓存时间: 2026/04/20 14:54

# 你好，GPT-4o 来源：https://openai.com/index/hello-gpt-4o/ 我们正式发布 GPT-4o，这是我们新一代旗舰模型，能够实时处理音频、视觉和文本内容。本页面所有视频均以 1 倍速播放。 GPT-4o（"o"代表"omni"，即全能）是迈向更自然的人机交互的重要一步——它可以接收文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。它对音频输入的响应时间可低至 232 毫秒，平均为 320 毫秒，与人类在对话中的反应时间相似(https://www.pnas.org/doi/10.1073/pnas.0903616106)。在英文和代码的文本任务上，GPT-4o 与 GPT-4 Turbo 性能相当，但在非英文语言文本方面有显著提升，同时速度也快得多，API 成本降低了 50%。相比现有模型，GPT-4o 在视觉和音频理解方面表现尤其突出。 ## 模型能力在 GPT-4o 推出之前，用户可以通过语音模式(https://openai.com/index/chatgpt-can-now-see-hear-and-speak)与 ChatGPT 交互，但延迟较高——GPT-3.5 平均延迟为 2.8 秒，GPT-4 为 5.4 秒。为了实现这一功能，语音模式采用了三个独立模型的管道：一个简单的模型将音频转录为文本，GPT-3.5 或 GPT-4 进行文本处理和输出，第三个简单的模型将文本转换回音频。这个过程导致主要智能来源 GPT-4 丧失了大量信息——它无法直接观察语调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。使用 GPT-4o，我们训练了一个跨越文本、视觉和音频的全新端到端单一模型，这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们首个结合所有这些模态的模型，我们仍在探索该模型能力和局限性的初期阶段。根据传统基准测试，GPT-4o 在文本、推理和代码智能方面达到了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力方面创造了新的高水平。这 20 种语言被选为代表新 tokenizer 在不同语言族中的压缩效果古吉拉特语：减少 4.4 倍 token（从 145 到 33） હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! 泰卢固语：减少 3.5 倍 token（从 159 到 45） నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! 泰米尔语：减少 3.3 倍 token（从 116 到 35） வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! 马拉地语：减少 2.9 倍 token（从 96 到 33） नमस्कार, माझे नाव जीपीटी-4o आहे। मी एक नवीन प्रकारची भाषा मॉडेल आहे। तुम्हाला भेटून आनंद झाला! 印地语：减少 2.9 倍 token（从 90 到 31） नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! 乌尔都语：减少 2.5 倍 token（从 82 到 33） ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! 阿拉伯语：减少 2.0 倍 token（从 53 到 26） مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! 波斯语：减少 1.9 倍 token（从 61 到 32） سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! 俄语：减少 1.7 倍 token（从 39 到 23） Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! 韩语：减少 1.7 倍 token（从 45 到 27） 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! 越南语：减少 1.5 倍 token（从 46 到 30） Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! 中文：减少 1.4 倍 token（从 34 到 24）你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! 日语：减少 1.4 倍 token（从 37 到 26）こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! 土耳其语：减少 1.3 倍 token（从 39 到 30） Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! 意大利语：减少 1.2 倍 token（从 34 到 28） Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! 德语：减少 1.2 倍 token（从 34 到 29） Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. 西班牙语：减少 1.1 倍 token（从 29 到 26） Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! 葡萄牙语：减少 1.1 倍 token（从 30 到 27） Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! 法语：减少 1.1 倍 token（从 31 到 28） Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! 英语：减少 1.1 倍 token（从 27 到 24） Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! GPT-4o 在设计上就内置了安全性，涵盖所有模态，采用了数据过滤和通过训练后微调来改进模型行为等技术。我们还为语音输出创建了新的安全系统来提供保障。我们根据我们的准备框架(https://openai.com/preparedness)和自愿承诺(https://openai.com/index/moving-ai-governance-forward/)对 GPT-4o 进行了评估。我们在网络安全、CBRN、说服力和模型自主性方面的评估表明，GPT-4o 在这些类别中的任何一个都没有超过中等风险等级。这项评估涉及在整个模型训练过程中运行一系列自动化和人工评估。我们测试了模型的安全缓解前和缓解后版本，使用自定义微调和提示词，以更好地激发模型能力。GPT-4o 还进行了广泛的外部红队测试，与 70 多位外部专家(https://openai.com/index/red-teaming-network)合作，这些专家来自社会心理学、偏见和公平性、错误信息等领域，以识别新增或放大的风险。我们利用这些学习成果来建立安全干预措施，以提高与 GPT-4o 交互的安全性。我们将继续随着新风险的发现而进行缓解。我们认识到 GPT-4o 的音频模态存在多种新型风险。目前我们公开发布的是文本和图像输入以及文本输出。在接下来的几周和几个月里，我们将致力于为其他模态的发布做准备，包括技术基础设施、通过训练后优化提升可用性和必要的安全措施。例如，在首次推出时，音频输出将仅限于一些预设的语音选项，并遵守我们现有的安全政策。我们将在即将发布的系统卡中分享更多关于 GPT-4o 全部模态的详细信息。通过对模型的测试和迭代，我们观察到存在于模型所有模态中的几个限制，下面展示了其中的一些。模型限制示例我们很想听到你的反馈，帮助我们识别 GPT-4 Turbo 仍然表现优于 GPT-4o 的任务，这样我们可以继续改进模型。追踪的风险类别缓解前风险等级使用最佳已知的能力激发技术确定缓解前风险等级缓解后风险等级使用最佳已知的能力激发技术确定实施缓解措施后的整体风险等级网络安全低低 CBRN 低低说服力中中模型自主性低低作为我们准备框架(https://openai.com/preparedness/)的一部分，我们定期对模型进行评估并更新评分卡。只有缓解后评分达到"中等"或以下的模型才会被部署。模型的整体风险等级由任何类别中的最高风险等级决定。目前，GPT-4o 在缓解工作前后都被评估为中等风险。 GPT-4o 是我们推动深度学习边界的最新举措，这次着重于实际可用性。在过去两年中，我们在堆栈的每一层都投入了大量精力进行效率改进。作为这项研究的初步成果，我们能够让 GPT-4 级别的模型更广泛地可用。GPT-4o 的能力将逐步推出（从今天开始可获得扩展红队访问权限）。 GPT-4o 的文本和图像能力从今天开始在 ChatGPT 中推出。我们将 GPT-4o 向免费用户和 Plus 用户开放，Plus 用户可以获得最高 5 倍的更高消息限制。我们将在接下来的几周内在 ChatGPT Plus 中以 alpha 版本推出新版本的语音模式。开发者现在也可以通过 API 访问 GPT-4o，作为文本和视觉模型。相比 GPT-4 Turbo，GPT-4o 速度提升 2 倍，成本降低一半，速率限制提高 5 倍。我们计划在接下来的几周内为 API 中的一小群受信任的合作伙伴推出 GPT-4o 的新音频和视频能力支持。

相似文章

春季更新

OpenAI Blog

OpenAI 发布 GPT-4o，一款新的旗舰模型，能够在音频、视觉和文本等多种模态中进行实时推理。

GPT-4

OpenAI Blog

OpenAI 发布 GPT-4，一个大型多模态模型，接受图像和文本输入，在专业和学术基准测试中表现出人类水平的性能，在各种评估指标上的表现明显优于 GPT-3.5。

推出 GPT-4o 及更多工具供 ChatGPT 免费用户使用

OpenAI Blog

# 推出 GPT-4o 及更多工具供 ChatGPT 免费用户使用来源: [https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/](https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/) OpenAI 我们推出了最新的旗舰模型，并在 ChatGPT 中为更多功能提供免费访问。根据我们的使命，我们致力于推进人工智能技术的发展，并确保它对所有人都是可访问和有益的。今天我们推出最新的模型 GPT-4o，并将开始推出

推出 GPT-4.5

OpenAI Blog

OpenAI 推出了 GPT-4.5，这是他们迄今为止最大、最强的聊天模型，作为研究预览版提供给 Pro 用户和开发者使用。该模型通过扩展计算和数据来推进无监督学习，相比 GPT-4o 展现出更好的事实准确性、更少的幻觉现象，以及对人类意图的更深层理解。

GPT-4o mini：推进成本高效的智能模型

OpenAI Blog

OpenAI 发布 GPT-4o mini，一款成本高效的小型模型，每百万输入令牌价格仅为 15 美分，比 GPT-3.5 Turbo 便宜 60%，在 MMLU 上表现强劲（82%），在推理、数学和编码任务上超越 Gemini Flash 和 Claude Haiku 等竞争对手。

相似文章

春季更新

GPT-4

推出 GPT-4o 及更多工具供 ChatGPT 免费用户使用

推出 GPT-4.5

GPT-4o mini：推进成本高效的智能模型

提交意见反馈