标签
Google 正在更新 Gemini Interactions API,用灵活的基于步骤的系统(outputs + roles → steps)取代严格的 user/model 角色,引入类似 user_input、thought、function_call、tool_call 和 model_output 的代理步骤。该更新还合并了 response_format 控制,并要求升级 SDK(Python/JS ≥2.0.0)或添加新的 API 标头以选择加入。
Google 为 Gemini API 推出了事件驱动的 Webhook,以减少 Deep Research 和批处理等长时间运行任务的延迟和摩擦。该功能用基于推送的通知取代了低效的轮询,从而提升了代理式应用程序的开发者体验。
# 推出 gpt-realtime 和实时 API 更新,用于生产级语音智能体 来源:[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API,包含新功能,使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫,使语音智能体更
OpenAI 为 GPT-4o 推出视觉微调功能,允许开发者使用图像数据和文本对模型进行定制,以在视觉搜索、物体检测和医学影像分析等视觉任务中提升性能。
OpenAI 发布了两个新的嵌入模型:text-embedding-3-small(比 ada-002 便宜 5 倍,MIRACL 性能提升 40% 以上)和 text-embedding-3-large(性能最佳,支持最多 3072 维度)。两个模型在标准基准上都展现出显著的性能提升,同时降低了成本。
OpenAI 推出了 GPT-3.5 Turbo 的微调功能,允许开发者为特定用例定制模型,以获得更好的性能、可控性和输出格式。该更新使得经过微调的 GPT-3.5 Turbo 能够在某些任务上匹配 GPT-4 的性能,同时可将提示词大小减少 90%。
OpenAI 宣布为 GPT-4 和 GPT-3.5-turbo 模型推出函数调用功能,允许开发者通过 JSON Schema 描述函数,让模型智能地选择输出结构化 JSON 以集成外部工具。此次更新还将对旧版模型的支持延长至 2024 年 6 月,并改进了模型评估方法。