当我的API账单不再合理后,我构建了一个代理来压缩智能体的LLM请求
摘要
一位独立创始人介绍了Orqen,这是一个位于你的SDK和LLM提供商之间的代理,通过压缩工具结果、管理历史记录和降低token成本来优化出站请求,而无需更改智能体代码。
我一直在OpenAI/Anthropic/Bedrock上构建智能体应用。订阅感觉有上限,直到每个循环都会重新发送完整的工具列表、臃肿的工具结果和不断增长的历史记录。输入token才是真正的计费单位——不是“一次聊天”,而是几十个完整的有效载荷。我想要前沿模型,而不是“买一块GPU跑27B参数模型”,但云账单依然让人心痛。于是我构建了Orqen:它位于你的SDK和提供商之间,优化每一轮的所有出站请求(工具路由、压缩工具结果、长会话历史记录/总结、模式清理、带故障开放的验证)。你只需更改API密钥和基础URL;智能体代码保持不变。它现在已经上线。我是一位独立创始人,英国公司。仍处于早期阶段——正在寻找在生产环境中运行工具调用智能体的人,告诉我什么能让他们信任路径中的代理。我正在尝试回答的问题:- 你的token膨胀主要来自哪里——工具、历史还是工具结果?- 响应头加上仪表盘展示节省的token是否足够?- 什么会阻止你尝试它?
相似文章
用于了解Agent工作方式的LLM代理?
用户寻找一个开源代理,用于拦截和调试AI Agent的API调用,以了解其内部工作原理,因为发现LiteLLM过于面向企业。
我开源了 Orkas——一个本地优先的桌面代理,由主代理指挥一组子代理(MIT 许可证,自带密钥)
Orkas 是一个开源、本地优先的桌面代理应用,其中主代理协调多个专业子代理,每个子代理拥有独立的上下文边界,并使用用户从不同大语言模型提供商提供的 API 密钥。
我的智能体太贵了!关于你的 LLM Token 消耗,你希望早知道什么?
一个关于运行 LLM 智能体成本高昂的讨论帖,用户分享抱怨并寻求关于追踪 Token 花费及提高效率的建议。
降低LLM API成本的10种方法
一份实用指南,列出了使用LLM API时降低成本的10种策略,包括模型选择、提示缓存、批处理以及监控费用。
OpenSquilla 发布开源 AI 代理以降低 Token 成本(4 分钟阅读)
OpenSquilla 推出了一款开源 AI 代理运行时,通过智能路由、缓存和四层记忆架构来降低 Token 成本,声称可节省 60-80% 的费用。