@rohanpaul_ai: TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本，实现了 61–87% 的成本降低。

X AI KOLs Following 2026/06/16 19:29 论文

llm-agent cost-reduction context-management cache-efficiency prompt-cache ingestion-aware lifecycle-aware

摘要

TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本，在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低，且得分具备竞争力。

TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本。在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低，且得分具备竞争力。认为更便宜的 AI 智能体需要稳定的内存，而不仅仅是更短的提示。旧方法通常会截断或总结历史记录，但这可能会打乱文本顺序并破坏提示缓存（即重复使用未改变的提示文本以节省成本的系统）。 TokenPilot 试图同时解决两方面问题：在工具结果进入上下文之前先清理它们，以及跨任务保持早期提示布局的稳定性。它还会等待一段时间再删除旧任务历史，因为已完成的工作可能仍然有助于后续引用相同文件或目标的任务。 ---- 链接 – arxiv.org/abs/2606.17016v1 标题："TokenPilot: Cache-Efficient Context Management for LLM Agents"

查看原文

查看缓存全文

缓存时间: 2026/06/16 19:38

TokenPilot 通过感知输入的压缩（ingestion-aware compaction）和感知生命周期的驱逐（lifecycle-aware eviction）来降低 LLM 代理的成本。

在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低，同时保持有竞争力的评分。

其观点是，更便宜的 AI 代理需要稳定的记忆，而不仅仅是更短的提示。

旧方法通常会裁剪或总结历史记录，但这可能会改变文本布局，破坏提示缓存（即重用未修改的提示文本以节省成本的系统）。

TokenPilot 试图同时解决这两个问题：在新工具结果进入上下文之前对其进行清理，并在各个任务之间保持早期提示布局的稳定。

它还会在删除旧任务历史记录之前等待，因为已完成的工作仍可能对引用相同文件或目标的后继任务有所帮助。

链接 – arxiv.org/abs/2606.17016v1

标题：“TokenPilot：面向 LLM 代理的缓存高效上下文管理”

@rohanpaul_ai: TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本，实现了 61–87% 的成本降低。

相似文章

TokenPilot：面向LLM代理的缓存高效上下文管理

使用rtk、headroom和caveman削减LLM Token成本——基于实际工作负载测量的节省

子代理在长代理运行中占据大部分Token成本：实际可将使用量降低70%至90%的修复方法

@pallavishekhar_: 如何减少AI代理中的Token使用？我们来理解一下。AI代理使用LLM进行思考、规划和推荐工具。每一步…

OpenSquilla 发布开源 AI 代理以降低 Token 成本（4 分钟阅读）

提交意见反馈