@sama:人们真的开始使用语音与AI交互,尤其是当他们需要倾泻大量上下文时。GPT-Re…

X AI KOLs 模型

摘要

Sam Altman 宣布将 GPT-Realtime-2 发布到 API,强调这是在语音与AI交互方面处理复杂上下文的一项重大进步。

人们真的开始使用语音与AI交互,尤其是当他们需要倾泻大量上下文时。 GPT-Realtime-2 今天来到了API;这是一个相当大的进步。 (我们正在改进聊天中的语音功能。)
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 10:01

人们确实开始使用语音与AI交互,尤其是在需要一次性提供大量上下文时。

GPT-Realtime-2 今天正式上线API;这是一个相当大的进步。

(我们正在改进聊天中的语音功能。)

相似文章

实时 API 介绍

OpenAI Blog

OpenAI 推出实时 API,使开发者能够构建低延迟多模态语音对话体验,由 GPT-4o 驱动的自然语音交互。该 API 支持六种预设声音,简化开发流程,无需集成多个模型。

推出 gpt-realtime 和实时 API 更新

OpenAI Blog

# 推出 gpt-realtime 和实时 API 更新,用于生产级语音智能体 来源:[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API,包含新功能,使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫,使语音智能体更

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。

@seclink: OpenAI 发布了 GPT-Realtime-2,这是其迄今为止最智能的语音模型。 该模型具备 GPT-5 级别的推理能力、128,000 个 token 的上下文窗口,并支持调节“投入程度”以实现更自然的对话体验。 它可与 GPT-R…

X AI KOLs Following

OpenAI发布了GPT-Realtime-2语音模型,具备GPT-5级别的推理能力和128,000 token上下文窗口,支持实时翻译70多种语言到13种输出语言,在Big Bench Audio Intelligence评测中达到96.6%准确率,Greg Brockman称其为语音翻译领域的里程碑。