标签
一篇文章讨论提示缓存如何大幅降低LLM API成本,指出提供商对此解释不足,并提供一个简单的规则来构建提示以获得最大缓存命中率。
Claude is now officially available on Microsoft Foundry, allowing Azure accounts to use it directly with existing authentication, billing, and compliance. The initial rollout includes Claude Opus 4.8 and Haiku 4.5, supporting prompt caching and extended thinking.
Alex 是 LangChain 团队的新成员,发表了一篇文章,解释 Deep Agents 如何使用提示缓存来降低 API 成本。
Anthropic 发布了 Fable 5,这是一款价格高昂的强大新模型,由于令牌扇出和高输出成本,使得成本感知路由对代理构建者来说至关重要。
作者分享了一个实用技巧,通过提示缓存(prompt caching)在长时间智能体运行中将输入token成本降低约90%:将不变文本(系统提示、工具定义、上下文)放在每个提示的开头,以利用LLM提供商的缓存前缀。
对四个代理运行时(Claude Code、OpenClaw、Hermes 和 OpenClacky)在相同任务上的令牌消耗进行比较显示,相对于 Claude Code,成本从0.8倍到4倍不等,这由缓存架构和工具模式设计的差异驱动。
本文介绍了通过提示词缓存、精简上下文、多模型路由(将日常编码任务交给Kimi 2.6,核心架构用高级模型)等策略,将AI编程成本削减80%的实用技巧。
本帖子分享了减少AI代理中Token使用的策略,包括提示缓存、上下文摘要、使用较小模型、修剪工具输出、子代理、RAG以及紧凑的系统提示。
一份实用指南,解释Claude Code中的提示缓存工作原理,如何将Token成本降低90%,以及常见的破坏缓存的习惯,帮助开发者延长会话时长并降低成本。
解释了缓存增强生成(CAG)作为一种将静态知识直接缓存到模型 KV 内存中的方法,与传统 RAG 相比,可降低延迟和成本,并展示了如何将两者结合以获得最佳性能。
文章认为,AI的真正挑战不仅在于构建更智能的模型,更在于以规模化的方式降低成本效率,强调了减少token使用、提升速度以及优化基础设施的重要性。
对Anthropic为Claude提供的提示缓存的成本分析得出62.5分钟的盈亏平衡规则:如果你预计在62.5分钟内再次需要缓存,请刷新它,否则让它过期以节省成本。
Anthropic产品负责人发布了一堂免费的28分钟大师课,讲解了如何将AI智能体投入生产,内容包括提示缓存、工具搜索、程序化工具调用、压缩和顾问策略。
Vasco Schiavo撰写的一篇教程,解释了AI Agent成本背后的数学原理,重点讨论了为什么agent可能很昂贵以及提示缓存的重要性。
一种面向开源 RL 训练引擎的全新优化技术在训练过程中引入了提示缓存,通过减少冗余计算,在长提示、短回复负载场景下实现了高达 7.5 倍的加速。
# Anthropic - OpenClaw 来源:[https://docs.openclaw.ai/providers/anthropic](https://docs.openclaw.ai/providers/anthropic) ## Anthropic (Claude) Anthropic 开发了 **Claude** 模型系列,并通过 API 和 Claude CLI 提供访问。在 OpenClaw 中,Anthropic API 密钥和 Claude CLI 重用都被支持。如果已配置,现有遗留的 Anthropic token 配置文件在运行时仍会被识别。 ## 选项 A:Anthropic API 密钥 **最佳适用场景:** 标准 API 访问和按用量计
OpenAI 推出提示词缓存功能,这是一项自动特性,通过在 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 模型上重用最近缓存的输入令牌,可将 API 成本降低 50% 并改善延迟。该功能会自动应用于超过 1,024 个令牌的提示词,无需开发者进行集成更改。
解释提示缓存如何在大型语言模型(LLM)中工作,以Claude为案例,详细说明Transformer的KV缓存机制以及在代理工作流中缓存静态前缀的成本效益。