使用上下文分析器优化LLM调用并减少Token使用

Reddit r/LocalLLaMA 2026/06/12 12:51 工具

llm token-optimization profiler context-window developer-tool open-source

摘要

ContextSpy 是一款本地代理工具，用于分析 LLM 应用如何使用其上下文窗口，按类别细分 Token 使用情况，帮助开发者优化并降低成本。

大家好。在本地 PyCon 大会上获得灵感后，我正在为 LLM 应用和编码代理开发一个新工具——上下文窗口分析器：[https://github.com/RimantasZ/contextspy](https://github.com/RimantasZ/contextspy)。现在大家都在讨论如何减少 Token 使用（要么降低 API 成本，要么加快本地推理速度），并且有无数工具旨在自动解决这个问题——从原始模式到各种 Token 压缩器。ContextSpy 是一个用于分析 LLM 应用上下文使用情况的分析工具。它作为一个本地代理运行，位于你的编码代理和 LLM API 之间。它记录每个请求，并分解输入 Token 的去向——系统提示、工具定义、文件内容、对话历史等等——这样你就能看到上下文窗口的实际使用情况。这种方法允许从另一个角度优化 Token 使用——类似于使用 CPU 或内存分析器来识别性能瓶颈或内存泄漏，ContextSpy 允许审查上下文中的内容，并决定这些信息是否真的必要。目前仍处于早期开发阶段，因此非常欢迎任何反馈——无论是有人在你的设置中测试它，提交一些 issue（还有很多），在这里评论，或者点个星，让我在那些加班后不眠的夜晚继续前进 :) https://preview.redd.it/kfpp1mryku6h1.png?width=4060&format=png&auto=webp&s=05b2afc5182559a4471860aed573f246e1ee4e82 https://preview.redd.it/lpvlnjmzku6h1.png?width=3254&format=png&auto=webp&s=a986915efb1bbdacbcc1105055e4f572b942783c

查看原文

使用上下文分析器优化LLM调用并减少Token使用

相似文章

TokenPilot：面向LLM代理的缓存高效上下文管理

更少上下文，更智能代理：面向长周期工具使用的LLM代理的高效上下文工程

@omarsar0: // The Efficiency Frontier // 关于上下文管理的有趣论文。随着代理在多次交互中重复使用相同的文档和历史记录……

@IntuitMachine: PEEK: 这个1K Token地图刚刚终结了长上下文税你的LLM代理正在读取同一个50K Token的代码库……

不要轻信大上下文窗口

提交意见反馈