推出 Gemini 2.5 Flash

Google DeepMind Blog 2025/04/17 19:02 模型

gemini ai-model reasoning api-release google hybrid-model

摘要

Google 宣布推出 Gemini 2.5 Flash，这是一个新的混合推理模型，现已通过 Gemini API 以预览版形式提供。该模型具有可切换的思考能力、细粒度的思考预算以平衡质量、成本和延迟，并在保持快速推理速度的同时相比 2.0 Flash 提升了性能。

Gemini 2.5 Flash 是我们首款完全混合推理模型，使开发者能够灵活开启或关闭思考功能。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:36

# 使用 Gemini 2.5 Flash 开始构建来源：https://developers.googleblog.com/en/start-building-with-gemini-25-flash/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content= Tulsee Doshi（https://developers.googleblog.com/en/search/?author=Tulsee+Doshi）产品管理总监 Gemini 今天，我们通过 Gemini API 在 **Google AI Studio**（https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-flash-preview-04-17）和 **Vertex AI**（https://console.cloud.google.com/vertex-ai/studio/multimodal?model=gemini-2.5-flash-preview-04-17）推出 **Gemini 2.5 Flash** 的早期预览版本。在受欢迎的 2.0 Flash 基础之上，这个新版本在推理能力方面实现了重大升级，同时仍然优先考虑速度和成本。Gemini 2.5 Flash 是我们首个完全混合推理模型，让开发者能够灵活地开启或关闭思考功能。该模型还允许开发者设置思考预算，在质量、成本和延迟之间找到适当平衡。即使**关闭思考功能**，开发者也能保持 2.0 Flash 的快速速度，并提高性能。我们的 Gemini 2.5 模型是思考模型，能够在回应前进行推理思考。该模型不是立即生成输出，而是可以执行"思考"过程来更好地理解提示、分解复杂任务并规划响应。在需要多步骤推理的复杂任务上（如解决数学问题或分析研究问题），思考过程使模型能够得出更准确和全面的答案。实际上，Gemini 2.5 Flash 在 LMArena（https://lmarena.ai/?leaderboard）的困难提示上表现强劲，仅次于 2.5 Pro。显示 LLM 价格和性能指标的对比表 2.5 Flash 相比其他领先模型具有可比较的指标，但成本和规模仅为其一小部分。 ## 最具成本效益的思考模型 2.5 Flash 继续保持性价比最佳模型的领先地位。展示 Gemini 2.5 Flash 性价比对比的图表 Gemini 2.5 Flash 为 Google 的成本与质量帕累托前沿添加了另一个模型。* ## 精细化控制来管理思考我们知道不同的用例在质量、成本和延迟方面有不同的权衡。为了给开发者灵活性，我们启用了设置**思考预算**的功能，这提供了对模型在思考时可生成的最大令牌数的精细化控制。更高的预算允许模型进行更深入的推理来提高质量。重要的是，预算设置了 2.5 Flash 可思考的上限，但如果提示不需要，模型不会使用完整预算。绘图显示随着思考预算增加推理质量的改进随着思考预算增加，推理质量改进。该模型经过训练可知道对给定提示的思考时间，因此会根据感知的任务复杂性自动决定思考的时间。如果你想保持最低成本和延迟，同时仍然改进相对于 2.0 Flash 的性能，**将思考预算设置为 0**。你也可以选择**使用 API 中的参数或 Google AI Studio 和 Vertex AI 中的滑块为思考阶段设置特定的令牌预算**。2.5 Flash 的预算范围为 0 到 24576 令牌。以下提示演示了 2.5 Flash 默认模式下可能使用多少推理。 ### **需要低推理的提示：** **示例 1：** "谢谢"用西班牙语表示 **示例 2：** 加拿大有多少个省？ ### **需要中等推理的提示：** **示例 1：** 你掷两个骰子。它们加起来是 7 的概率是多少？ **示例 2：** 我的健身房篮球开放时间为周一、三、五的 9 点至下午 3 点，周二和周六为下午 2 点至晚上 8 点。如果我每周工作 9 点至下午 6 点，五天，并想在工作日打 5 小时篮球，请为我制定一个日程表来完成这一切。 ### **需要高推理的提示：** **示例 1：** 长度 L=3m 的悬臂梁，矩形截面（宽度 b=0.1m，高度 h=0.2m），由钢材（E=200 GPa）制成。它沿其整个长度受到均匀分布荷载 w=5 kN/m，在自由端受到点荷载 P=10 kN。计算最大弯曲应力（σ_max）。 **示例 2：** 编写函数 `evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]` 来计算电子表格单元格的值。每个单元格包含： - 一个数字（例如 `"3"`） - 或公式如 `"=A1 + B1 * 2"` 使用 `+`、`-`、`*`、`/` 和其他单元格。要求： - 解决单元格之间的依赖关系。 - 处理运算符优先级（`*/` 在 `+-` 之前）。 - 检测循环并抛出 `ValueError("Cycle detected at ")`。 - 不使用 `eval()`。仅使用内置库。 ## 立即开始使用 Gemini 2.5 Flash 构建 Gemini 2.5 Flash 及其思考功能现已通过 Gemini API（https://ai.google.dev/gemini-api/docs/thinking）在 Google AI Studio（https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-flash-preview-04-17）和 Vertex AI（https://console.cloud.google.com/vertex-ai/studio/multimodal?model=gemini-2.5-flash-preview-04-17）提供预览版，也可在 Gemini 应用（http://gemini.google.com/）中的专用下拉菜单中使用。我们鼓励你尝试 `thinking_budget` 参数，并探索可控推理如何帮助你解决更复杂的问题。 ``` from google import genai client = genai.Client(api_key="GEMINI_API_KEY") response = client.models.generate_content( model="gemini-2.5-flash-preview-04-17", contents="You roll two dice. What's the probability they add up to 7?", config=genai.types.GenerateContentConfig( thinking_config=genai.types.ThinkingConfig( thinking_budget=1024 ) ) ) print(response.text) ``` Python 已复制在我们的开发者文档（https://ai.google.dev/gemini-api/docs/thinking#set-budget）中查找详细的 API 参考和思考指南，或从 Gemini Cookbook（https://github.com/google-gemini/cookbook/）获取代码示例（https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_started_thinking.ipynb）。我们将继续改进 Gemini 2.5 Flash，更多功能即将推出，然后我们才会使其普遍可用于完整的生产使用。 *模型定价来自 Artificial Analysis & Company Documentation

推出 Gemini 2.5 Flash

相似文章

Gemini 2.5：思维模型家族的更新

Gemini 2.5 Flash-Lite 现已准备就绪，可用于大规模生产

我们正在扩展 Gemini 2.5 系列模型

Gemini 3.1 Flash-Lite：为大规模智能而生

Gemini 3 Flash: 为速度而生的前沿智能

提交意见反馈