Hello GPT-4o

OpenAI Blog 模型

摘要

OpenAI发布GPT-4o,一个功能全面的多模态模型,可实时处理音频、视觉、文本和视频,平均音频响应延迟为232毫秒。该模型在文本和代码能力上与GPT-4 Turbo相当,同时显著改进了多语言、音频和视觉功能,API成本降低50%。

我们宣布推出GPT-4 Omni,我们的新旗舰模型,可以实时处理音频、视觉和文本的推理任务。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:54

# 你好,GPT-4o 来源:https://openai.com/index/hello-gpt-4o/ 我们正式发布 GPT-4o,这是我们新一代旗舰模型,能够实时处理音频、视觉和文本内容。 本页面所有视频均以 1 倍速播放。 GPT-4o("o"代表"omni",即全能)是迈向更自然的人机交互的重要一步——它可以接收文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。它对音频输入的响应时间可低至 232 毫秒,平均为 320 毫秒,与人类在对话中的反应时间相似(https://www.pnas.org/doi/10.1073/pnas.0903616106)。在英文和代码的文本任务上,GPT-4o 与 GPT-4 Turbo 性能相当,但在非英文语言文本方面有显著提升,同时速度也快得多,API 成本降低了 50%。相比现有模型,GPT-4o 在视觉和音频理解方面表现尤其突出。 ## 模型能力 在 GPT-4o 推出之前,用户可以通过语音模式(https://openai.com/index/chatgpt-can-now-see-hear-and-speak)与 ChatGPT 交互,但延迟较高——GPT-3.5 平均延迟为 2.8 秒,GPT-4 为 5.4 秒。为了实现这一功能,语音模式采用了三个独立模型的管道:一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 进行文本处理和输出,第三个简单的模型将文本转换回音频。这个过程导致主要智能来源 GPT-4 丧失了大量信息——它无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。 使用 GPT-4o,我们训练了一个跨越文本、视觉和音频的全新端到端单一模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们首个结合所有这些模态的模型,我们仍在探索该模型能力和局限性的初期阶段。 根据传统基准测试,GPT-4o 在文本、推理和代码智能方面达到了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创造了新的高水平。 这 20 种语言被选为代表新 tokenizer 在不同语言族中的压缩效果 古吉拉特语:减少 4.4 倍 token(从 145 到 33) હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! 泰卢固语:减少 3.5 倍 token(从 159 到 45) నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! 泰米尔语:减少 3.3 倍 token(从 116 到 35) வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! 马拉地语:减少 2.9 倍 token(从 96 到 33) नमस्कार, माझे नाव जीपीटी-4o आहे। मी एक नवीन प्रकारची भाषा मॉडेल आहे। तुम्हाला भेटून आनंद झाला! 印地语:减少 2.9 倍 token(从 90 到 31) नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! 乌尔都语:减少 2.5 倍 token(从 82 到 33) ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! 阿拉伯语:减少 2.0 倍 token(从 53 到 26) مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! 波斯语:减少 1.9 倍 token(从 61 到 32) سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! 俄语:减少 1.7 倍 token(从 39 到 23) Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! 韩语:减少 1.7 倍 token(从 45 到 27) 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! 越南语:减少 1.5 倍 token(从 46 到 30) Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! 中文:减少 1.4 倍 token(从 34 到 24) 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! 日语:减少 1.4 倍 token(从 37 到 26) こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! 土耳其语:减少 1.3 倍 token(从 39 到 30) Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! 意大利语:减少 1.2 倍 token(从 34 到 28) Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! 德语:减少 1.2 倍 token(从 34 到 29) Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. 西班牙语:减少 1.1 倍 token(从 29 到 26) Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! 葡萄牙语:减少 1.1 倍 token(从 30 到 27) Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! 法语:减少 1.1 倍 token(从 31 到 28) Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! 英语:减少 1.1 倍 token(从 27 到 24) Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! GPT-4o 在设计上就内置了安全性,涵盖所有模态,采用了数据过滤和通过训练后微调来改进模型行为等技术。我们还为语音输出创建了新的安全系统来提供保障。 我们根据我们的 准备框架(https://openai.com/preparedness)和自愿承诺(https://openai.com/index/moving-ai-governance-forward/)对 GPT-4o 进行了评估。我们在网络安全、CBRN、说服力和模型自主性方面的评估表明,GPT-4o 在这些类别中的任何一个都没有超过中等风险等级。这项评估涉及在整个模型训练过程中运行一系列自动化和人工评估。我们测试了模型的安全缓解前和缓解后版本,使用自定义微调和提示词,以更好地激发模型能力。GPT-4o 还进行了广泛的外部红队测试,与 70 多位外部专家(https://openai.com/index/red-teaming-network)合作,这些专家来自社会心理学、偏见和公平性、错误信息等领域,以识别新增或放大的风险。我们利用这些学习成果来建立安全干预措施,以提高与 GPT-4o 交互的安全性。我们将继续随着新风险的发现而进行缓解。 我们认识到 GPT-4o 的音频模态存在多种新型风险。目前我们公开发布的是文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于为其他模态的发布做准备,包括技术基础设施、通过训练后优化提升可用性和必要的安全措施。例如,在首次推出时,音频输出将仅限于一些预设的语音选项,并遵守我们现有的安全政策。我们将在即将发布的系统卡中分享更多关于 GPT-4o 全部模态的详细信息。 通过对模型的测试和迭代,我们观察到存在于模型所有模态中的几个限制,下面展示了其中的一些。 模型限制示例 我们很想听到你的反馈,帮助我们识别 GPT-4 Turbo 仍然表现优于 GPT-4o 的任务,这样我们可以继续改进模型。 追踪的风险类别 缓解前风险等级 使用最佳已知的能力激发技术确定缓解前风险等级 缓解后风险等级 使用最佳已知的能力激发技术确定实施缓解措施后的整体风险等级 网络安全 低 低 CBRN 低 低 说服力 中 中 模型自主性 低 低 作为我们准备框架(https://openai.com/preparedness/)的一部分,我们定期对模型进行评估并更新评分卡。只有缓解后评分达到"中等"或以下的模型才会被部署。模型的整体风险等级由任何类别中的最高风险等级决定。目前,GPT-4o 在缓解工作前后都被评估为中等风险。 GPT-4o 是我们推动深度学习边界的最新举措,这次着重于实际可用性。在过去两年中,我们在堆栈的每一层都投入了大量精力进行效率改进。作为这项研究的初步成果,我们能够让 GPT-4 级别的模型更广泛地可用。GPT-4o 的能力将逐步推出(从今天开始可获得扩展红队访问权限)。 GPT-4o 的文本和图像能力从今天开始在 ChatGPT 中推出。我们将 GPT-4o 向免费用户和 Plus 用户开放,Plus 用户可以获得最高 5 倍的更高消息限制。我们将在接下来的几周内在 ChatGPT Plus 中以 alpha 版本推出新版本的语音模式。 开发者现在也可以通过 API 访问 GPT-4o,作为文本和视觉模型。相比 GPT-4 Turbo,GPT-4o 速度提升 2 倍,成本降低一半,速率限制提高 5 倍。我们计划在接下来的几周内为 API 中的一小群受信任的合作伙伴推出 GPT-4o 的新音频和视频能力支持。

相似文章

春季更新

OpenAI Blog

OpenAI 发布 GPT-4o,一款新的旗舰模型,能够在音频、视觉和文本等多种模态中进行实时推理。

GPT-4

OpenAI Blog

OpenAI 发布 GPT-4,一个大型多模态模型,接受图像和文本输入,在专业和学术基准测试中表现出人类水平的性能,在各种评估指标上的表现明显优于 GPT-3.5。

推出 GPT-4o 及更多工具供 ChatGPT 免费用户使用

OpenAI Blog

# 推出 GPT-4o 及更多工具供 ChatGPT 免费用户使用 来源: [https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/](https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/) OpenAI 我们推出了最新的旗舰模型,并在 ChatGPT 中为更多功能提供免费访问。根据我们的使命,我们致力于推进人工智能技术的发展,并确保它对所有人都是可访问和有益的。今天我们推出最新的模型 GPT-4o,并将开始推出

推出 GPT-4.5

OpenAI Blog

OpenAI 推出了 GPT-4.5,这是他们迄今为止最大、最强的聊天模型,作为研究预览版提供给 Pro 用户和开发者使用。该模型通过扩展计算和数据来推进无监督学习,相比 GPT-4o 展现出更好的事实准确性、更少的幻觉现象,以及对人类意图的更深层理解。

GPT-4o mini:推进成本高效的智能模型

OpenAI Blog

OpenAI 发布 GPT-4o mini,一款成本高效的小型模型,每百万输入令牌价格仅为 15 美分,比 GPT-3.5 Turbo 便宜 60%,在 MMLU 上表现强劲(82%),在推理、数学和编码任务上超越 Gemini Flash 和 Claude Haiku 等竞争对手。