API 中的提示词缓存

OpenAI Blog 2024/10/01 10:03 产品

prompt-caching api-feature cost-optimization openai latency-reduction token-efficiency

摘要

OpenAI 推出提示词缓存功能，这是一项自动特性，通过在 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 模型上重用最近缓存的输入令牌，可将 API 成本降低 50% 并改善延迟。该功能会自动应用于超过 1,024 个令牌的提示词，无需开发者进行集成更改。

对模型最近处理过的输入提供自动折扣

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:50

# API 中的提示词缓存来源：https://openai.com/index/api-prompt-caching/ OpenAI 为模型最近见过的输入提供自动折扣许多开发者在构建 AI 应用程序时会在多个 API 调用中重复使用相同的上下文，比如编辑代码库或与聊天机器人进行长期的多轮对话。今天我们推出了提示词缓存功能，允许开发者降低成本和延迟。通过重复使用最近见过的输入令牌，开发者可以获得 50% 的折扣和更快的提示词处理速度。从今天开始，提示词缓存会自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini，以及这些模型的微调版本。缓存的提示词相比未缓存的提示词享有折扣。以下是定价概览：支持的模型的 API 调用将自动受益于长度超过 1,024 个令牌的提示词缓存。该 API 会缓存之前已计算过的提示词最长前缀，初始为 1,024 个令牌，然后以 128 个令牌的增量递增。如果你重复使用具有共同前缀的提示词，我们将自动应用提示词缓存折扣，无需对你的 API 集成做任何更改。使用提示词缓存的请求在 API 响应的 `usage` 字段中会有一个 `cached_tokens` 值：缓存通常在 5-10 分钟的无活动后清除，并始终在缓存最后使用后的一小时内删除。与所有 API 服务一样，提示词缓存受我们的企业隐私承诺 (https://openai.com/enterprise-privacy/) 约束。提示词缓存不会在各组织之间共享。提示词缓存是开发者在生产中扩展应用程序、同时平衡性能、成本和延迟的多种工具之一。有关更多信息，请查看提示词缓存文档 (https://platform.openai.com/docs/guides/prompt-caching)。

API 中的提示词缓存

相似文章

提示缓存，但用于 RL 训练——在长提示/短回复负载上实现 7.5 倍加速

在 API 中推出 GPT-4.1

面向开发者推出GPT-5.1

我如何在长时间智能体运行中轻松减少约90%的输入token消耗

提示词基础

提交意见反馈