@rohanpaul_ai: TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本,实现了 61–87% 的成本降低。
摘要
TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本,在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低,且得分具备竞争力。
查看缓存全文
缓存时间: 2026/06/16 19:38
TokenPilot 通过感知输入的压缩(ingestion-aware compaction)和感知生命周期的驱逐(lifecycle-aware eviction)来降低 LLM 代理的成本。
在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低,同时保持有竞争力的评分。
其观点是,更便宜的 AI 代理需要稳定的记忆,而不仅仅是更短的提示。
旧方法通常会裁剪或总结历史记录,但这可能会改变文本布局,破坏提示缓存(即重用未修改的提示文本以节省成本的系统)。
TokenPilot 试图同时解决这两个问题:在新工具结果进入上下文之前对其进行清理,并在各个任务之间保持早期提示布局的稳定。
它还会在删除旧任务历史记录之前等待,因为已完成的工作仍可能对引用相同文件或目标的后继任务有所帮助。
链接 – arxiv.org/abs/2606.17016v1
标题:“TokenPilot:面向 LLM 代理的缓存高效上下文管理”
相似文章
TokenPilot:面向LLM代理的缓存高效上下文管理
TokenPilot是一个双粒度上下文管理框架,通过稳定提示前缀和保守管理上下文片段,降低长时程LLM会话中的推理成本。在基准测试中实现了61-87%的成本降低,同时保持竞争性性能。
使用rtk、headroom和caveman削减LLM Token成本——基于实际工作负载测量的节省
对三个旨在降低编码代理LLM Token成本的开源工具(rtk、headroom和caveman)的详细分析,发现实际节省远低于声称值。
子代理在长代理运行中占据大部分Token成本:实际可将使用量降低70%至90%的修复方法
本文分析了 Bai 等人 2026 年的论文,该论文表明,子代理和上下文膨胀导致长代理运行中的Token成本比普通聊天高出约1000倍,并提出了三种实用的修复方法(PLAN.md、读取预算、带外备注),可将Token使用量减少70-90%。
@pallavishekhar_: 如何减少AI代理中的Token使用?我们来理解一下。AI代理使用LLM进行思考、规划和推荐工具。每一步…
本帖子分享了减少AI代理中Token使用的策略,包括提示缓存、上下文摘要、使用较小模型、修剪工具输出、子代理、RAG以及紧凑的系统提示。
OpenSquilla 发布开源 AI 代理以降低 Token 成本(4 分钟阅读)
OpenSquilla 推出了一款开源 AI 代理运行时,通过智能路由、缓存和四层记忆架构来降低 Token 成本,声称可节省 60-80% 的费用。