@seclink: OpenAI 发布了 GPT-Realtime-2,这是其迄今为止最智能的语音模型。 该模型具备 GPT-5 级别的推理能力、128,000 个 token 的上下文窗口,并支持调节“投入程度”以实现更自然的对话体验。 它可与 GPT-R…
摘要
OpenAI发布了GPT-Realtime-2语音模型,具备GPT-5级别的推理能力和128,000 token上下文窗口,支持实时翻译70多种语言到13种输出语言,在Big Bench Audio Intelligence评测中达到96.6%准确率,Greg Brockman称其为语音翻译领域的里程碑。
OpenAI 发布了 GPT-Realtime-2,这是其迄今为止最智能的语音模型。 该模型具备 GPT-5 级别的推理能力、128,000 个 token 的上下文窗口,并支持调节“投入程度”以实现更自然的对话体验。 它可与 GPT-Realtime-Translate 配合使用,实现将 70 多种输入语言实时翻译为 13 种输出语言;亦可搭配 GPT-Realtime-Whisper,实现实时的语音转文本功能。基准测试结果显示该模型取得了重大突破,例如在 Big Bench Audio Intelligence 评测中达到了 96.6% 的准确率; 这使得这些工具完全有能力应用于各类生产级应用程序中,涵盖从多语言聊天到协作助手等广泛场景。 Greg Brockman 等业界领袖盛赞该模型是语音对语音翻译领域的一个里程碑。
相似文章
Build Hour: GPT-Realtime-2
OpenAI在Build Hour中发布了GPT Realtime-2及两个配套模型,增强了语音交互的智能性和自然度,支持128k上下文、并行工具调用和动态语音克隆,展示了语音驱动的购物助手和分析仪表盘等生产级应用。
@FinanceYF5: 1/ 语音 Agent 升级了 OpenAI 推出 GPT-Realtime-2,把 GPT-5 级推理带进实时语音 API。 语音助手不再只是“听懂并回答”,而是能边听边想、边聊边解决问题。
OpenAI 推出了 GPT-Realtime-2,将 GPT-5 级别的推理能力集成到实时语音 API 中,使语音助手能够在对话过程中进行实时思考和解决问题。
We’re introducing three audio models in the API
OpenAI 在 API 中推出了三个实时音频模型,包括支持70种语言的实时翻译模型 GPT Realtime Translate 和具备推理能力的语音智能体 GPT Realtime 2,使开发者能够构建更自然的语音交互界面。
@kwindla:OpenAI 今天发布了一款新的语音到语音模型:gpt-realtime-2 这是首个足够好的语音到语音模型……
OpenAI 发布了 gpt-realtime-2,一款新的语音到语音模型,针对实时语音代理交互和低延迟工具调用进行了优化。
API 推出全新模型,推动语音智能发展
OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。