标签
Anthropic 发布了 Fable 5,这是一款价格高昂的强大新模型,由于令牌扇出和高输出成本,使得成本感知路由对代理构建者来说至关重要。
作者分享了一个实用技巧,通过提示缓存(prompt caching)在长时间智能体运行中将输入token成本降低约90%:将不变文本(系统提示、工具定义、上下文)放在每个提示的开头,以利用LLM提供商的缓存前缀。
对四个代理运行时(Claude Code、OpenClaw、Hermes 和 OpenClacky)在相同任务上的令牌消耗进行比较显示,相对于 Claude Code,成本从0.8倍到4倍不等,这由缓存架构和工具模式设计的差异驱动。
本文介绍了通过提示词缓存、精简上下文、多模型路由(将日常编码任务交给Kimi 2.6,核心架构用高级模型)等策略,将AI编程成本削减80%的实用技巧。
本帖子分享了减少AI代理中Token使用的策略,包括提示缓存、上下文摘要、使用较小模型、修剪工具输出、子代理、RAG以及紧凑的系统提示。
一份实用指南,解释Claude Code中的提示缓存工作原理,如何将Token成本降低90%,以及常见的破坏缓存的习惯,帮助开发者延长会话时长并降低成本。
解释了缓存增强生成(CAG)作为一种将静态知识直接缓存到模型 KV 内存中的方法,与传统 RAG 相比,可降低延迟和成本,并展示了如何将两者结合以获得最佳性能。
文章认为,AI的真正挑战不仅在于构建更智能的模型,更在于以规模化的方式降低成本效率,强调了减少token使用、提升速度以及优化基础设施的重要性。
对Anthropic为Claude提供的提示缓存的成本分析得出62.5分钟的盈亏平衡规则:如果你预计在62.5分钟内再次需要缓存,请刷新它,否则让它过期以节省成本。
Anthropic产品负责人发布了一堂免费的28分钟大师课,讲解了如何将AI智能体投入生产,内容包括提示缓存、工具搜索、程序化工具调用、压缩和顾问策略。
Vasco Schiavo撰写的一篇教程,解释了AI Agent成本背后的数学原理,重点讨论了为什么agent可能很昂贵以及提示缓存的重要性。
一种面向开源 RL 训练引擎的全新优化技术在训练过程中引入了提示缓存,通过减少冗余计算,在长提示、短回复负载场景下实现了高达 7.5 倍的加速。
# Anthropic - OpenClaw 来源:[https://docs.openclaw.ai/providers/anthropic](https://docs.openclaw.ai/providers/anthropic) ## Anthropic (Claude) Anthropic 开发了 **Claude** 模型系列,并通过 API 和 Claude CLI 提供访问。在 OpenClaw 中,Anthropic API 密钥和 Claude CLI 重用都被支持。如果已配置,现有遗留的 Anthropic token 配置文件在运行时仍会被识别。 ## 选项 A:Anthropic API 密钥 **最佳适用场景:** 标准 API 访问和按用量计
OpenAI 推出提示词缓存功能,这是一项自动特性,通过在 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 模型上重用最近缓存的输入令牌,可将 API 成本降低 50% 并改善延迟。该功能会自动应用于超过 1,024 个令牌的提示词,无需开发者进行集成更改。