@rohanpaul_ai: TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本,实现了 61–87% 的成本降低。

X AI KOLs Following 论文

摘要

TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本,在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低,且得分具备竞争力。

TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本。 在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低,且得分具备竞争力。 认为更便宜的 AI 智能体需要稳定的内存,而不仅仅是更短的提示。 旧方法通常会截断或总结历史记录,但这可能会打乱文本顺序并破坏提示缓存(即重复使用未改变的提示文本以节省成本的系统)。 TokenPilot 试图同时解决两方面问题:在工具结果进入上下文之前先清理它们,以及跨任务保持早期提示布局的稳定性。 它还会等待一段时间再删除旧任务历史,因为已完成的工作可能仍然有助于后续引用相同文件或目标的任务。 ---- 链接 – arxiv.org/abs/2606.17016v1 标题:"TokenPilot: Cache-Efficient Context Management for LLM Agents"
查看原文
查看缓存全文

缓存时间: 2026/06/16 19:38

TokenPilot 通过感知输入的压缩(ingestion-aware compaction)和感知生命周期的驱逐(lifecycle-aware eviction)来降低 LLM 代理的成本。

在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低,同时保持有竞争力的评分。

其观点是,更便宜的 AI 代理需要稳定的记忆,而不仅仅是更短的提示。

旧方法通常会裁剪或总结历史记录,但这可能会改变文本布局,破坏提示缓存(即重用未修改的提示文本以节省成本的系统)。

TokenPilot 试图同时解决这两个问题:在新工具结果进入上下文之前对其进行清理,并在各个任务之间保持早期提示布局的稳定。

它还会在删除旧任务历史记录之前等待,因为已完成的工作仍可能对引用相同文件或目标的后继任务有所帮助。


链接 – arxiv.org/abs/2606.17016v1

标题:“TokenPilot:面向 LLM 代理的缓存高效上下文管理”

相似文章

TokenPilot:面向LLM代理的缓存高效上下文管理

Hugging Face Daily Papers

TokenPilot是一个双粒度上下文管理框架,通过稳定提示前缀和保守管理上下文片段,降低长时程LLM会话中的推理成本。在基准测试中实现了61-87%的成本降低,同时保持竞争性性能。