使用上下文分析器优化LLM调用并减少Token使用

Reddit r/LocalLLaMA 工具

摘要

ContextSpy 是一款本地代理工具,用于分析 LLM 应用如何使用其上下文窗口,按类别细分 Token 使用情况,帮助开发者优化并降低成本。

大家好。在本地 PyCon 大会上获得灵感后,我正在为 LLM 应用和编码代理开发一个新工具——上下文窗口分析器:[https://github.com/RimantasZ/contextspy](https://github.com/RimantasZ/contextspy)。现在大家都在讨论如何减少 Token 使用(要么降低 API 成本,要么加快本地推理速度),并且有无数工具旨在自动解决这个问题——从原始模式到各种 Token 压缩器。ContextSpy 是一个用于分析 LLM 应用上下文使用情况的分析工具。它作为一个本地代理运行,位于你的编码代理和 LLM API 之间。它记录每个请求,并分解输入 Token 的去向——系统提示、工具定义、文件内容、对话历史等等——这样你就能看到上下文窗口的实际使用情况。这种方法允许从另一个角度优化 Token 使用——类似于使用 CPU 或内存分析器来识别性能瓶颈或内存泄漏,ContextSpy 允许审查上下文中的内容,并决定这些信息是否真的必要。目前仍处于早期开发阶段,因此非常欢迎任何反馈——无论是有人在你的设置中测试它,提交一些 issue(还有很多),在这里评论,或者点个星,让我在那些加班后不眠的夜晚继续前进 :) https://preview.redd.it/kfpp1mryku6h1.png?width=4060&format=png&auto=webp&s=05b2afc5182559a4471860aed573f246e1ee4e82 https://preview.redd.it/lpvlnjmzku6h1.png?width=3254&format=png&auto=webp&s=a986915efb1bbdacbcc1105055e4f572b942783c
查看原文

相似文章

为什么每个“上下文层”工具都在谎报token节省量?

Reddit r/AI_Agents

作者批评了新兴的上下文层和MCP优化器工具缺乏透明的基准测试,这些工具承诺大幅节省token,但实际测试却无法复现其声称的效率。他们敦促开发者要求公开、可复现的基准测试,并寻求真正能提供可衡量结果的工具推荐。