当我的API账单不再合理后，我构建了一个代理来压缩智能体的LLM请求

Reddit r/AI_Agents 2026/05/31 13:16 产品

agentic-ai llm-proxy cost-optimization token-management api-proxy tool-calling

摘要

一位独立创始人介绍了Orqen，这是一个位于你的SDK和LLM提供商之间的代理，通过压缩工具结果、管理历史记录和降低token成本来优化出站请求，而无需更改智能体代码。

我一直在OpenAI/Anthropic/Bedrock上构建智能体应用。订阅感觉有上限，直到每个循环都会重新发送完整的工具列表、臃肿的工具结果和不断增长的历史记录。输入token才是真正的计费单位——不是“一次聊天”，而是几十个完整的有效载荷。我想要前沿模型，而不是“买一块GPU跑27B参数模型”，但云账单依然让人心痛。于是我构建了Orqen：它位于你的SDK和提供商之间，优化每一轮的所有出站请求（工具路由、压缩工具结果、长会话历史记录/总结、模式清理、带故障开放的验证）。你只需更改API密钥和基础URL；智能体代码保持不变。它现在已经上线。我是一位独立创始人，英国公司。仍处于早期阶段——正在寻找在生产环境中运行工具调用智能体的人，告诉我什么能让他们信任路径中的代理。我正在尝试回答的问题：- 你的token膨胀主要来自哪里——工具、历史还是工具结果？- 响应头加上仪表盘展示节省的token是否足够？- 什么会阻止你尝试它？

查看原文

当我的API账单不再合理后，我构建了一个代理来压缩智能体的LLM请求

相似文章

用于了解Agent工作方式的LLM代理？

@alex_prompter: 这个开源代理无需改动一行代码就能降低你的AI agent成本。Plano位于你的agent和你的…

@tonysimons_: 一位Netflix工程师构建了一个开源代理，可将AI token使用量减少60-95%。零代码更改。基准测试显示±0…

还有人对为每个代理工具管理API密钥和计费感到厌倦吗？

我开源了 Orkas——一个本地优先的桌面代理，由主代理指挥一组子代理（MIT 许可证，自带密钥）

提交意见反馈