API 中的提示词缓存

OpenAI Blog 产品

摘要

OpenAI 推出提示词缓存功能,这是一项自动特性,通过在 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 模型上重用最近缓存的输入令牌,可将 API 成本降低 50% 并改善延迟。该功能会自动应用于超过 1,024 个令牌的提示词,无需开发者进行集成更改。

对模型最近处理过的输入提供自动折扣
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:50

# API 中的提示词缓存 来源:https://openai.com/index/api-prompt-caching/ OpenAI 为模型最近见过的输入提供自动折扣 许多开发者在构建 AI 应用程序时会在多个 API 调用中重复使用相同的上下文,比如编辑代码库或与聊天机器人进行长期的多轮对话。今天我们推出了提示词缓存功能,允许开发者降低成本和延迟。通过重复使用最近见过的输入令牌,开发者可以获得 50% 的折扣和更快的提示词处理速度。 从今天开始,提示词缓存会自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini,以及这些模型的微调版本。缓存的提示词相比未缓存的提示词享有折扣。 以下是定价概览: 支持的模型的 API 调用将自动受益于长度超过 1,024 个令牌的提示词缓存。该 API 会缓存之前已计算过的提示词最长前缀,初始为 1,024 个令牌,然后以 128 个令牌的增量递增。如果你重复使用具有共同前缀的提示词,我们将自动应用提示词缓存折扣,无需对你的 API 集成做任何更改。 使用提示词缓存的请求在 API 响应的 `usage` 字段中会有一个 `cached_tokens` 值: 缓存通常在 5-10 分钟的无活动后清除,并始终在缓存最后使用后的一小时内删除。与所有 API 服务一样,提示词缓存受我们的企业隐私承诺 (https://openai.com/enterprise-privacy/) 约束。提示词缓存不会在各组织之间共享。 提示词缓存是开发者在生产中扩展应用程序、同时平衡性能、成本和延迟的多种工具之一。有关更多信息,请查看提示词缓存文档 (https://platform.openai.com/docs/guides/prompt-caching)。

相似文章

在 API 中推出 GPT-4.1

OpenAI Blog

OpenAI 通过 API 推出 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 模型,在编程(SWE-bench 得分达 54.6%)、指令遵循和 100 万 token 上下文窗口方面有重大改进,成本更低。GPT-4.5 Preview 将于 2025 年 7 月 14 日停用。

面向开发者推出GPT-5.1

OpenAI Blog

OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。

提示词基础

OpenAI Blog

OpenAI Academy 关于提示词基础的指南,教导用户如何编写清晰、有效的提示词,通过诸如明确具体、添加背景、指定输出格式以及分解复杂任务等技巧,从 ChatGPT 获得更好的回复。