标签
腾讯开源了Hy-Memory,这是一个为AI代理提供长期记忆的内存插件,采用6层双推理框架,将令牌使用量减少35%,内存膨胀减少70%。
ContextSpy 是一款本地代理工具,用于分析 LLM 应用如何使用其上下文窗口,按类别细分 Token 使用情况,帮助开发者优化并降低成本。
该推文批评了 AI 应用过度使用大型模型,并介绍了旨在根据不同请求匹配合适模型规模以提高效率的 Dari Router 工具。
作者通过从Firebase切换到InsForge(一个用于智能体编程的开源后端平台),将AI智能体的token用量降低了2.5倍,token数从550万降至230万,并消除了人工干预。
本文提出了一种受蚁群启发的方法,以优化 token 使用并创建高效的 AI 代理工具链,类似于 n8n 工作流。
腾讯开源了 TencentDB Agent Memory,通过分层记忆管理(符号化短期记忆+分层长期记忆)解决AI Agent长对话上下文爆仓问题,实测Token消耗最高降低61%,任务通过率提升超50%。
一位开发者构建了一个系统,通过跨任务复用信息来减少AI代理工作流中的代币浪费,现正在寻找测试者提供反馈。
MeshFlow 是一个开源框架,专注于生产环境下的多智能体编排,内置 HIPAA/SOX/GDPR 合规性、SHA-256 审计链、70-85% 的代币成本降低以及持久化执行,将治理视为基础设施。
作者分享了一个实用技巧,通过提示缓存(prompt caching)在长时间智能体运行中将输入token成本降低约90%:将不变文本(系统提示、工具定义、上下文)放在每个提示的开头,以利用LLM提供商的缓存前缀。
对一种仅基于相关触发器唤醒的邮件代理事件路由方法进行基准测试,与轮询相比,下游tokens使用量减少91%。
Google 推出了 Gemini 3.5 Flash (Low),这是一种新模型变体,在 SWE 任务上比旧版 Gemini 3 Flash (High) 表现更优,同时相比 Medium 版本使用的 token 减少了约 45%。他们还重置了所有付费计划的配额。
作者分享了自己三年使用PDF喂AI的踩坑经历,指出Markdown比PDF更适合作为AI输入格式,因为PDF本质上是坐标+字符的混合体,AI需要先解析结构,容易出错且消耗更多token。文章提供了具体案例和推荐工具(markitdown、pandoc、LlamaParse),并预告了一个名为“喂AI的艺术”的新系列。
CodeGraph 通过本地构建索引图谱,减少 AI 编程助手扫描整个项目的次数,大幅降低 Token 消耗并提升速度,兼容 VS Code、Claude Code 和 Cursor。
本文提供了一份全面指南,旨在将Agentic AI系统的令牌成本降低95%,详细介绍了七种核心技术,包括树状文档架构、AI自动压缩、本地模型管理以及脚本到API调用。
BetaPRM 是一种过程奖励模型,它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性,从而实现自适应计算分配,在提高准确性的同时将 token 使用量减少高达 33.57%。
由@DataChaz发布的一条推文列出了10个开源工具,用于大幅降低Claude Code及类似AI编程助手的Token使用量,通过各种优化手段可将API费用削减75%-98%。
Agentmemory 是一个开源工具,为 Claude Code 和 Codex 提供无限记忆功能,通过智能压缩减少 token 使用量,提升编程效率,已在 GitHub 获得 4000+ 星标。
@levelsio的一条推文询问如何对Claude Code进行tokenmax,引用了Garry Tan关于使用OpenClaw/Hermes + GBrain以获得竞争性AI优势的建议。
LyteNyte Grid AI Skills是一个免费开源工具,利用声明式、无状态架构帮助AI智能体高效构建数据网格,将token使用量减少85%并提升开发速度。