TokenPilot:面向LLM代理的缓存高效上下文管理
摘要
TokenPilot是一个双粒度上下文管理框架,通过稳定提示前缀和保守管理上下文片段,降低长时程LLM会话中的推理成本。在基准测试中实现了61-87%的成本降低,同时保持竞争性性能。
查看缓存全文
缓存时间: 2026/06/16 11:34
论文页面 - TokenPilot:面向LLM代理的缓存高效上下文管理
来源:https://huggingface.co/papers/2606.17016 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
TokenPilot 是一个双粒度上下文管理框架,通过稳定提示前缀并保守管理上下文片段,降低长时 LLM 会话中的推理成本。
随着 LLM 代理 (https://huggingface.co/papers?q=LLM%20agents) 被部署到长时会话中,上下文积累导致推理成本飙升。现有方法采用文本剪枝或动态内存驱逐来最小化 token footprints (https://huggingface.co/papers?q=token%20footprints);然而,这些方法无约束的序列突变改变了布局,引发前缀不匹配和缓存失效。这揭示了文本稀疏性与 prompt cache continuity (https://huggingface.co/papers?q=prompt%20cache%20continuity) 之间的关键权衡。为解决这一问题,我们提出 TokenPilot,这是一种双粒度的 context management (https://huggingface.co/papers?q=context%20management) 框架。全局层面,Ingestion-Aware Compaction (https://huggingface.co/papers?q=Ingestion-Aware%20Compaction) 作为框架约束,在摄入门控处稳定提示前缀并消除开放世界的环境噪声。局部层面,Lifecycle-Aware Eviction (https://huggingface.co/papers?q=Lifecycle-Aware%20Eviction) 监控上下文片段的残余效用 residual utility (https://huggingface.co/papers?q=residual%20utility),强制执行保守的 batch-turn schedule (https://huggingface.co/papers?q=batch-turn%20schedule),仅当任务相关性过期时才卸载内容片段。在 PinchBench 和 Claw-Eval 上的独立模式 isolated mode (https://huggingface.co/papers?q=isolated%20mode) 与连续模式 continuous mode (https://huggingface.co/papers?q=continuous%20mode) 实验表明,TokenPilot 在独立模式下分别降低成本 61% 和 56%,在连续模式下分别降低成本 61% 和 87%,同时保持与以往系统相当的性能。TokenPilot 已集成到 LightMem2 中,地址为 https://github.com/zjunlp/LightMem2。
查看 arXiv 页面 (https://arxiv.org/abs/2606.17016) 查看 PDF (https://arxiv.org/pdf/2606.17016) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17016)
在代理中获取此论文:
hf papers read 2606.17016
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.17016 可从本页面链接。
引用此论文的数据集 0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.17016 可从本页面链接。
引用此论文的 Space 0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.17016 可从本页面链接。
包含此论文的收藏集 1
相似文章
@rohanpaul_ai: TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本,实现了 61–87% 的成本降低。
TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本,在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低,且得分具备竞争力。
@omarsar0: // The Efficiency Frontier // 关于上下文管理的有趣论文。随着代理在多次交互中重复使用相同的文档和历史记录……
本文介绍了The Efficiency Frontier,一个用于LLM上下文管理成本-性能优化的统一框架,它将上下文策略选择建模为一个部署感知的优化问题,通过摊销内存压缩,与全上下文提示相比,实现了25%的token使用量减少和超过50%的token成本降低。
更少上下文,更智能代理:面向长周期工具使用的LLM代理的高效上下文工程
本文评估了企业工具使用工作流中LLM代理的上下文工程配置,表明选择性修剪的摘要化相比全上下文基线实现了91.6%的准确率,同时将令牌使用量减少了60%以上。
@IntuitMachine: PEEK: 这个1K Token地图刚刚终结了长上下文税 你的LLM代理正在读取同一个50K Token的代码库……
微软推出了PEEK,一个1,024 Token的'上下文地图',为LLM代理缓存定位知识,减少冗余推理,实现了高达34%的准确率提升,减少93-145次重试,成本降低5.8倍。
使用上下文分析器优化LLM调用并减少Token使用
ContextSpy 是一款本地代理工具,用于分析 LLM 应用如何使用其上下文窗口,按类别细分 Token 使用情况,帮助开发者优化并降低成本。