缓存时间:
2026/04/20 14:54
# 你好,GPT-4o
来源:https://openai.com/index/hello-gpt-4o/
我们正式发布 GPT-4o,这是我们新一代旗舰模型,能够实时处理音频、视觉和文本内容。
本页面所有视频均以 1 倍速播放。
GPT-4o("o"代表"omni",即全能)是迈向更自然的人机交互的重要一步——它可以接收文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。它对音频输入的响应时间可低至 232 毫秒,平均为 320 毫秒,与人类在对话中的反应时间相似(https://www.pnas.org/doi/10.1073/pnas.0903616106)。在英文和代码的文本任务上,GPT-4o 与 GPT-4 Turbo 性能相当,但在非英文语言文本方面有显著提升,同时速度也快得多,API 成本降低了 50%。相比现有模型,GPT-4o 在视觉和音频理解方面表现尤其突出。
## 模型能力
在 GPT-4o 推出之前,用户可以通过语音模式(https://openai.com/index/chatgpt-can-now-see-hear-and-speak)与 ChatGPT 交互,但延迟较高——GPT-3.5 平均延迟为 2.8 秒,GPT-4 为 5.4 秒。为了实现这一功能,语音模式采用了三个独立模型的管道:一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 进行文本处理和输出,第三个简单的模型将文本转换回音频。这个过程导致主要智能来源 GPT-4 丧失了大量信息——它无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
使用 GPT-4o,我们训练了一个跨越文本、视觉和音频的全新端到端单一模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们首个结合所有这些模态的模型,我们仍在探索该模型能力和局限性的初期阶段。
根据传统基准测试,GPT-4o 在文本、推理和代码智能方面达到了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创造了新的高水平。
这 20 种语言被选为代表新 tokenizer 在不同语言族中的压缩效果
古吉拉特语:减少 4.4 倍 token(从 145 到 33)
હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
泰卢固语:减少 3.5 倍 token(从 159 到 45)
నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
泰米尔语:减少 3.3 倍 token(从 116 到 35)
வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
马拉地语:减少 2.9 倍 token(从 96 到 33)
नमस्कार, माझे नाव जीपीटी-4o आहे। मी एक नवीन प्रकारची भाषा मॉडेल आहे। तुम्हाला भेटून आनंद झाला!
印地语:减少 2.9 倍 token(从 90 到 31)
नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
乌尔都语:减少 2.5 倍 token(从 82 到 33)
ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
阿拉伯语:减少 2.0 倍 token(从 53 到 26)
مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
波斯语:减少 1.9 倍 token(从 61 到 32)
سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
俄语:减少 1.7 倍 token(从 39 到 23)
Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
韩语:减少 1.7 倍 token(从 45 到 27)
안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
越南语:减少 1.5 倍 token(从 46 到 30)
Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
中文:减少 1.4 倍 token(从 34 到 24)
你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!
日语:减少 1.4 倍 token(从 37 到 26)
こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!
土耳其语:减少 1.3 倍 token(从 39 到 30)
Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
意大利语:减少 1.2 倍 token(从 34 到 28)
Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
德语:减少 1.2 倍 token(从 34 到 29)
Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
西班牙语:减少 1.1 倍 token(从 29 到 26)
Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
葡萄牙语:减少 1.1 倍 token(从 30 到 27)
Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
法语:减少 1.1 倍 token(从 31 到 28)
Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
英语:减少 1.1 倍 token(从 27 到 24)
Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!
GPT-4o 在设计上就内置了安全性,涵盖所有模态,采用了数据过滤和通过训练后微调来改进模型行为等技术。我们还为语音输出创建了新的安全系统来提供保障。
我们根据我们的
准备框架(https://openai.com/preparedness)和自愿承诺(https://openai.com/index/moving-ai-governance-forward/)对 GPT-4o 进行了评估。我们在网络安全、CBRN、说服力和模型自主性方面的评估表明,GPT-4o 在这些类别中的任何一个都没有超过中等风险等级。这项评估涉及在整个模型训练过程中运行一系列自动化和人工评估。我们测试了模型的安全缓解前和缓解后版本,使用自定义微调和提示词,以更好地激发模型能力。GPT-4o 还进行了广泛的外部红队测试,与 70 多位外部专家(https://openai.com/index/red-teaming-network)合作,这些专家来自社会心理学、偏见和公平性、错误信息等领域,以识别新增或放大的风险。我们利用这些学习成果来建立安全干预措施,以提高与 GPT-4o 交互的安全性。我们将继续随着新风险的发现而进行缓解。
我们认识到 GPT-4o 的音频模态存在多种新型风险。目前我们公开发布的是文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于为其他模态的发布做准备,包括技术基础设施、通过训练后优化提升可用性和必要的安全措施。例如,在首次推出时,音频输出将仅限于一些预设的语音选项,并遵守我们现有的安全政策。我们将在即将发布的系统卡中分享更多关于 GPT-4o 全部模态的详细信息。
通过对模型的测试和迭代,我们观察到存在于模型所有模态中的几个限制,下面展示了其中的一些。
模型限制示例
我们很想听到你的反馈,帮助我们识别 GPT-4 Turbo 仍然表现优于 GPT-4o 的任务,这样我们可以继续改进模型。
追踪的风险类别
缓解前风险等级
使用最佳已知的能力激发技术确定缓解前风险等级
缓解后风险等级
使用最佳已知的能力激发技术确定实施缓解措施后的整体风险等级
网络安全
低
低
CBRN
低
低
说服力
中
中
模型自主性
低
低
作为我们准备框架(https://openai.com/preparedness/)的一部分,我们定期对模型进行评估并更新评分卡。只有缓解后评分达到"中等"或以下的模型才会被部署。模型的整体风险等级由任何类别中的最高风险等级决定。目前,GPT-4o 在缓解工作前后都被评估为中等风险。
GPT-4o 是我们推动深度学习边界的最新举措,这次着重于实际可用性。在过去两年中,我们在堆栈的每一层都投入了大量精力进行效率改进。作为这项研究的初步成果,我们能够让 GPT-4 级别的模型更广泛地可用。GPT-4o 的能力将逐步推出(从今天开始可获得扩展红队访问权限)。
GPT-4o 的文本和图像能力从今天开始在 ChatGPT 中推出。我们将 GPT-4o 向免费用户和 Plus 用户开放,Plus 用户可以获得最高 5 倍的更高消息限制。我们将在接下来的几周内在 ChatGPT Plus 中以 alpha 版本推出新版本的语音模式。
开发者现在也可以通过 API 访问 GPT-4o,作为文本和视觉模型。相比 GPT-4 Turbo,GPT-4o 速度提升 2 倍,成本降低一半,速率限制提高 5 倍。我们计划在接下来的几周内为 API 中的一小群受信任的合作伙伴推出 GPT-4o 的新音频和视频能力支持。