prompt-caching

#prompt-caching

为什么感觉大型LLM提供商在故意隐藏提示缓存？

Reddit r/artificial ↗ · 2天前

一篇文章讨论提示缓存如何大幅降低LLM API成本，指出提供商对此解释不足，并提供一个简单的规则来构建提示以获得最大缓存命中率。

0 人收藏 0 人点赞

#prompt-caching

@FinanceYF5: Claude 正式进驻 Microsoft Foundry，今天起全面开放 Azure 账号直接用，身份验证、计费、合规管控全套沿用现有体系首批上线：Claude Opus 4.8 和 Haiku 4.5，支持 prompt cachi…

X AI KOLs Timeline ↗ · 4天前缓存

Claude is now officially available on Microsoft Foundry, allowing Azure accounts to use it directly with existing authentication, billing, and compliance. The initial rollout includes Claude Opus 4.8 and Haiku 4.5, supporting prompt caching and extended thinking.

0 人收藏 0 人点赞

#prompt-caching

@LangChain：Alex 最近加入了 @LangChain_OSS 团队，并发表了他的第一篇文章，关于 Deep Agents 如何使用提示缓存…

X AI KOLs Timeline ↗ · 2026-06-26 缓存

Alex 是 LangChain 团队的新成员，发表了一篇文章，解释 Deep Agents 如何使用提示缓存来降低 API 成本。

0 人收藏 0 人点赞

#prompt-caching

Fable 5 使得代理构建者必须采用成本感知模型路由

Reddit r/AI_Agents ↗ · 2026-06-09

Anthropic 发布了 Fable 5，这是一款价格高昂的强大新模型，由于令牌扇出和高输出成本，使得成本感知路由对代理构建者来说至关重要。

0 人收藏 0 人点赞

#prompt-caching

我如何在长时间智能体运行中轻松减少约90%的输入token消耗

Reddit r/AI_Agents ↗ · 2026-06-01

作者分享了一个实用技巧，通过提示缓存（prompt caching）在长时间智能体运行中将输入token成本降低约90%：将不变文本（系统提示、工具定义、上下文）放在每个提示的开头，以利用LLM提供商的缓存前缀。

0 人收藏 0 人点赞

#prompt-caching

测量了执行相同任务的4个代理运行时的令牌消耗。成本从1倍到4倍不等，取决于缓存架构

Reddit r/AI_Agents ↗ · 2026-05-27

对四个代理运行时（Claude Code、OpenClaw、Hermes 和 OpenClacky）在相同任务上的令牌消耗进行比较显示，相对于 Claude Code，成本从0.8倍到4倍不等，这由缓存架构和工具模式设计的差异驱动。

0 人收藏 0 人点赞

#prompt-caching

@freeman1266: 通过优化策略和模型路由，将每月数千美元的 AI 编程成本大幅削减 80% 如果低效的上下文管理和盲目使用高昂模型，将会使账单飞涨。通过实施提示词缓存、精简上下文文件以及修复工具调用的自动循环，开发者可以显著减少无效的 Token 消耗。…

X AI KOLs Timeline ↗ · 2026-05-26

本文介绍了通过提示词缓存、精简上下文、多模型路由（将日常编码任务交给Kimi 2.6，核心架构用高级模型）等策略，将AI编程成本削减80%的实用技巧。

0 人收藏 0 人点赞

#prompt-caching

@pallavishekhar_: 如何减少AI代理中的Token使用？我们来理解一下。AI代理使用LLM进行思考、规划和推荐工具。每一步…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

本帖子分享了减少AI代理中Token使用的策略，包括提示缓存、上下文摘要、使用较小模型、修剪工具输出、子代理、RAG以及紧凑的系统提示。

0 人收藏 0 人点赞

#prompt-caching

@nateherk: https://x.com/nateherk/status/2057450555212013627

X AI KOLs Timeline ↗ · 2026-05-21 缓存

一份实用指南，解释Claude Code中的提示缓存工作原理，如何将Token成本降低90%，以及常见的破坏缓存的习惯，帮助开发者延长会话时长并降低成本。

0 人收藏 0 人点赞

#prompt-caching

降低LLM API成本的10种方法

Reddit r/AI_Agents ↗ · 2026-05-20

一份实用指南，列出了使用LLM API时降低成本的10种策略，包括模型选择、提示缓存、批处理以及监控费用。

0 人收藏 0 人点赞

#prompt-caching

@akshay_pachaar: RAG vs. CAG，清晰解释！RAG 很棒，但有一个主要问题：每次查询都命中向量数据库，即使是静态数据也是如此……

X AI KOLs Following ↗ · 2026-05-19 缓存

解释了缓存增强生成（CAG）作为一种将静态知识直接缓存到模型 KV 内存中的方法，与传统 RAG 相比，可降低延迟和成本，并展示了如何将两者结合以获得最佳性能。

0 人收藏 0 人点赞

#prompt-caching

每个AI提示都需花费成本——这改变了一切

Reddit r/AI_Agents ↗ · 2026-05-18

文章认为，AI的真正挑战不仅在于构建更智能的模型，更在于以规模化的方式降低成本效率，强调了减少token使用、提升速度以及优化基础设施的重要性。

0 人收藏 0 人点赞

#prompt-caching

Tokenomics：Claude缓存的62.5分钟法则（8分钟阅读）

TLDR AI ↗ · 2026-05-18 缓存

对Anthropic为Claude提供的提示缓存的成本分析得出62.5分钟的盈亏平衡规则：如果你预计在62.5分钟内再次需要缓存，请刷新它，否则让它过期以节省成本。

0 人收藏 0 人点赞

#prompt-caching

@0xMovez：Anthropic产品负责人刚刚发布了一堂28分钟的大师课，讲解如何将智能体投入实际生产应用……

X AI KOLs Timeline ↗ · 2026-05-13

Anthropic产品负责人发布了一堂免费的28分钟大师课，讲解了如何将AI智能体投入生产，内容包括提示缓存、工具搜索、程序化工具调用、压缩和顾问策略。

0 人收藏 0 人点赞

#prompt-caching

@gneubig: "AI Agent成本背后的数学原理" Vasco Schiavo在@OpenHandsDev撰写的清晰教程，解释了为什么agent可能很昂贵

X AI KOLs Following ↗ · 2026-05-13 缓存

Vasco Schiavo撰写的一篇教程，解释了AI Agent成本背后的数学原理，重点讨论了为什么agent可能很昂贵以及提示缓存的重要性。

0 人收藏 0 人点赞

#prompt-caching

提示缓存，但用于 RL 训练——在长提示/短回复负载上实现 7.5 倍加速

Reddit r/LocalLLaMA ↗ · 2026-05-11

一种面向开源 RL 训练引擎的全新优化技术在训练过程中引入了提示缓存，通过减少冗余计算，在长提示、短回复负载场景下实现了高达 7.5 倍的加速。

0 人收藏 0 人点赞

#prompt-caching

Anthropic 表示 OpenClaw 风格的 Claude CLI 使用方式再次获准

Hacker News Top ↗ · 2026-04-21 缓存

# Anthropic - OpenClaw 来源：[https://docs.openclaw.ai/providers/anthropic](https://docs.openclaw.ai/providers/anthropic) ## Anthropic (Claude) Anthropic 开发了 **Claude** 模型系列，并通过 API 和 Claude CLI 提供访问。在 OpenClaw 中，Anthropic API 密钥和 Claude CLI 重用都被支持。如果已配置，现有遗留的 Anthropic token 配置文件在运行时仍会被识别。 ## 选项 A：Anthropic API 密钥 **最佳适用场景：** 标准 API 访问和按用量计

0 人收藏 0 人点赞

#prompt-caching

API 中的提示词缓存

OpenAI Blog ↗ · 2024-10-01 缓存

OpenAI 推出提示词缓存功能，这是一项自动特性，通过在 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 模型上重用最近缓存的输入令牌，可将 API 成本降低 50% 并改善延迟。该功能会自动应用于超过 1,024 个令牌的提示词，无需开发者进行集成更改。

0 人收藏 0 人点赞

#prompt-caching

解释提示缓存如何在大型语言模型（LLM）中工作，以Claude为案例，详细说明Transformer的KV缓存机制以及在代理工作流中缓存静态前缀的成本效益。

X AI KOLs ↗ · 2026-06-23 缓存

解释提示缓存如何在大型语言模型（LLM）中工作，以Claude为案例，详细说明Transformer的KV缓存机制以及在代理工作流中缓存静态前缀的成本效益。

1 人收藏 1 人点赞

prompt-caching

提交意见反馈