@_philschmid: Gemini Interactions API 更新 随着我们超越简单提示,严格的“user”和“model”角色显得局限。因此……

X AI KOLs Following 产品

摘要

Google 正在更新 Gemini Interactions API,用灵活的基于步骤的系统(outputs + roles → steps)取代严格的 user/model 角色,引入类似 user_input、thought、function_call、tool_call 和 model_output 的代理步骤。该更新还合并了 response_format 控制,并要求升级 SDK(Python/JS ≥2.0.0)或添加新的 API 标头以选择加入。

Gemini Interactions API 更新 随着我们超越简单提示,严格的“user”和“model”角色显得局限。因此我们正在演进 Gemini Interactions API,以支持丰富的、多领域的代理步骤。有什么变化?`outputs` + `roles` → `steps`,每个动作(`user_input`、`thought`、`function_call`、`tool_call`、`model_output` 等)都是独立的步骤,不再有 `user`/`model` 角色。在每个 Gemini API 文档上切换 Interactions API 和 `generateContent`。合并了 `response_format` 控制(宽高比、文件格式等)。更新了 Interactions API 技能,使迁移和更新无缝进行。升级您的 SDK(Python ≥2.0.0 / JS ≥2.0.0)或添加 `Api-Revision: 2026-05-26` 标头以选择加入。我们正处于 GA 前的最后阶段!如果您有反馈、发现错误或文档问题,请告诉我们!我们正在倾听并做出改变。完整指南和代理技能如下。
查看原文

相似文章

推出 Gemini 2.5 计算机使用模型

Google DeepMind Blog

Google 通过 Gemini API 发布 Gemini 2.5 计算机使用模型,使开发者能够构建可通过点击、输入和滚动与用户界面交互的 AI 代理。该模型在网页和移动控制基准测试中表现优异,延迟更低,现已在 Google AI Studio 和 Vertex AI 中提供预览版。

推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog

Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。

开始使用 Gemini 3 构建

Google DeepMind Blog

Google 发布了 Gemini 3 Pro,这是一款全新的 AI 模型,旨在编程、智能体工作流和多模态推理方面超越之前的版本。该模型可通过 Gemini API、Google AI Studio 以及全新的 Google Antigravity 开发平台使用。

Gemini 音频模型升级,打造更强大的语音体验

Google DeepMind Blog

Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。