推出 Gemini 2.5 Flash

Google DeepMind Blog 模型

摘要

Google 宣布推出 Gemini 2.5 Flash,这是一个新的混合推理模型,现已通过 Gemini API 以预览版形式提供。该模型具有可切换的思考能力、细粒度的思考预算以平衡质量、成本和延迟,并在保持快速推理速度的同时相比 2.0 Flash 提升了性能。

Gemini 2.5 Flash 是我们首款完全混合推理模型,使开发者能够灵活开启或关闭思考功能。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:36

# 使用 Gemini 2.5 Flash 开始构建 来源:https://developers.googleblog.com/en/start-building-with-gemini-25-flash/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content= Tulsee Doshi(https://developers.googleblog.com/en/search/?author=Tulsee+Doshi) 产品管理总监 Gemini 今天,我们通过 Gemini API 在 **Google AI Studio**(https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-flash-preview-04-17)和 **Vertex AI**(https://console.cloud.google.com/vertex-ai/studio/multimodal?model=gemini-2.5-flash-preview-04-17)推出 **Gemini 2.5 Flash** 的早期预览版本。在受欢迎的 2.0 Flash 基础之上,这个新版本在推理能力方面实现了重大升级,同时仍然优先考虑速度和成本。Gemini 2.5 Flash 是我们首个完全混合推理模型,让开发者能够灵活地开启或关闭思考功能。该模型还允许开发者设置思考预算,在质量、成本和延迟之间找到适当平衡。即使**关闭思考功能**,开发者也能保持 2.0 Flash 的快速速度,并提高性能。 我们的 Gemini 2.5 模型是思考模型,能够在回应前进行推理思考。该模型不是立即生成输出,而是可以执行"思考"过程来更好地理解提示、分解复杂任务并规划响应。在需要多步骤推理的复杂任务上(如解决数学问题或分析研究问题),思考过程使模型能够得出更准确和全面的答案。实际上,Gemini 2.5 Flash 在 LMArena(https://lmarena.ai/?leaderboard)的困难提示上表现强劲,仅次于 2.5 Pro。 显示 LLM 价格和性能指标的对比表 2.5 Flash 相比其他领先模型具有可比较的指标,但成本和规模仅为其一小部分。 ## 最具成本效益的思考模型 2.5 Flash 继续保持性价比最佳模型的领先地位。 展示 Gemini 2.5 Flash 性价比对比的图表 Gemini 2.5 Flash 为 Google 的成本与质量帕累托前沿添加了另一个模型。* ## 精细化控制来管理思考 我们知道不同的用例在质量、成本和延迟方面有不同的权衡。为了给开发者灵活性,我们启用了设置**思考预算**的功能,这提供了对模型在思考时可生成的最大令牌数的精细化控制。更高的预算允许模型进行更深入的推理来提高质量。重要的是,预算设置了 2.5 Flash 可思考的上限,但如果提示不需要,模型不会使用完整预算。 绘图显示随着思考预算增加推理质量的改进 随着思考预算增加,推理质量改进。该模型经过训练可知道对给定提示的思考时间,因此会根据感知的任务复杂性自动决定思考的时间。如果你想保持最低成本和延迟,同时仍然改进相对于 2.0 Flash 的性能,**将思考预算设置为 0**。你也可以选择**使用 API 中的参数或 Google AI Studio 和 Vertex AI 中的滑块为思考阶段设置特定的令牌预算**。2.5 Flash 的预算范围为 0 到 24576 令牌。 以下提示演示了 2.5 Flash 默认模式下可能使用多少推理。 ### **需要低推理的提示:** **示例 1:** "谢谢"用西班牙语表示 **示例 2:** 加拿大有多少个省? ### **需要中等推理的提示:** **示例 1:** 你掷两个骰子。它们加起来是 7 的概率是多少? **示例 2:** 我的健身房篮球开放时间为周一、三、五的 9 点至下午 3 点,周二和周六为下午 2 点至晚上 8 点。如果我每周工作 9 点至下午 6 点,五天,并想在工作日打 5 小时篮球,请为我制定一个日程表来完成这一切。 ### **需要高推理的提示:** **示例 1:** 长度 L=3m 的悬臂梁,矩形截面(宽度 b=0.1m,高度 h=0.2m),由钢材(E=200 GPa)制成。它沿其整个长度受到均匀分布荷载 w=5 kN/m,在自由端受到点荷载 P=10 kN。计算最大弯曲应力(σ_max)。 **示例 2:** 编写函数 `evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]` 来计算电子表格单元格的值。每个单元格包含: - 一个数字(例如 `"3"`) - 或公式如 `"=A1 + B1 * 2"` 使用 `+`、`-`、`*`、`/` 和其他单元格。 要求: - 解决单元格之间的依赖关系。 - 处理运算符优先级(`*/` 在 `+-` 之前)。 - 检测循环并抛出 `ValueError("Cycle detected at ")`。 - 不使用 `eval()`。仅使用内置库。 ## 立即开始使用 Gemini 2.5 Flash 构建 Gemini 2.5 Flash 及其思考功能现已通过 Gemini API(https://ai.google.dev/gemini-api/docs/thinking)在 Google AI Studio(https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-flash-preview-04-17)和 Vertex AI(https://console.cloud.google.com/vertex-ai/studio/multimodal?model=gemini-2.5-flash-preview-04-17)提供预览版,也可在 Gemini 应用(http://gemini.google.com/)中的专用下拉菜单中使用。我们鼓励你尝试 `thinking_budget` 参数,并探索可控推理如何帮助你解决更复杂的问题。 ``` from google import genai client = genai.Client(api_key="GEMINI_API_KEY") response = client.models.generate_content( model="gemini-2.5-flash-preview-04-17", contents="You roll two dice. What's the probability they add up to 7?", config=genai.types.GenerateContentConfig( thinking_config=genai.types.ThinkingConfig( thinking_budget=1024 ) ) ) print(response.text) ``` Python 已复制 在我们的开发者文档(https://ai.google.dev/gemini-api/docs/thinking#set-budget)中查找详细的 API 参考和思考指南,或从 Gemini Cookbook(https://github.com/google-gemini/cookbook/)获取代码示例(https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_started_thinking.ipynb)。 我们将继续改进 Gemini 2.5 Flash,更多功能即将推出,然后我们才会使其普遍可用于完整的生产使用。 *模型定价来自 Artificial Analysis & Company Documentation

相似文章

Gemini 2.5:思维模型家族的更新

Google DeepMind Blog

Google 宣布 Gemini 2.5 Pro 和 Flash 模型的稳定正式发布,推出新的 Gemini 2.5 Flash-Lite 预览版,具有更低的延迟和成本,并更新 Flash 系列的定价,调整输入/输出令牌费率。

Gemini 2.5 Flash-Lite 现已准备就绪,可用于大规模生产

Google DeepMind Blog

Google 发布 Gemini 2.5 Flash-Lite 作为稳定版本并正式上线,这是 Gemini 2.5 系列中速度最快、成本最低的模型,定价为每 100 万个令牌 $0.10(输入)/$0.40(输出),具备原生推理能力和与原生工具的完全功能对等。

我们正在扩展 Gemini 2.5 系列模型

Google DeepMind Blog

Google 宣布 Gemini 2.5 Flash 和 Pro 模型正式推出,并推出预览版 Gemini 2.5 Flash-Lite——一个新的成本高效且最快的变种,针对高吞吐量、低延迟的任务进行了优化。

Gemini 3.1 Flash-Lite:为大规模智能而生

Google DeepMind Blog

Google 推出 Gemini 3.1 Flash-Lite,这是一款高速、高性价比的 AI 模型,现可通过 Google AI Studio 和 Vertex API 预览使用,专为高并发开发者工作负载而设计。

Gemini 3 Flash: 为速度而生的前沿智能

Google DeepMind Blog

Google 发布了 Gemini 3 Flash,这是一款快速、高性价比的 AI 模型,将 Pro 级别的推理能力与 Flash 级别的速度相结合,适用于编程、复杂分析和智能体工作流等任务。