标签
一个演示展示了使用 GPT-Realtime 2.0 完全通过语音控制计算机,展示了无需手动操作的操作系统界面。
我们使用GPT Realtime给Reachy Mini机器人装上了实时语音大脑,使其能够通过麦克风听、摄像头看、扬声器说话,并通过动作工具做出物理反应。该项目已在GitHub上开源。
OpenAI 发布了 gpt-realtime-2,一款新的语音到语音模型,针对实时语音代理交互和低延迟工具调用进行了优化。
GPT-Realtime-2 在 Big Bench Audio 基准测试中较 1.5 版本提升了 15 个百分点,性能已接近饱和水平。
Sam Altman 宣布将 GPT-Realtime-2 发布到 API,强调这是在语音与AI交互方面处理复杂上下文的一项重大进步。
OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。