当我的API账单不再合理后,我构建了一个代理来压缩智能体的LLM请求

Reddit r/AI_Agents 产品

摘要

一位独立创始人介绍了Orqen,这是一个位于你的SDK和LLM提供商之间的代理,通过压缩工具结果、管理历史记录和降低token成本来优化出站请求,而无需更改智能体代码。

我一直在OpenAI/Anthropic/Bedrock上构建智能体应用。订阅感觉有上限,直到每个循环都会重新发送完整的工具列表、臃肿的工具结果和不断增长的历史记录。输入token才是真正的计费单位——不是“一次聊天”,而是几十个完整的有效载荷。我想要前沿模型,而不是“买一块GPU跑27B参数模型”,但云账单依然让人心痛。于是我构建了Orqen:它位于你的SDK和提供商之间,优化每一轮的所有出站请求(工具路由、压缩工具结果、长会话历史记录/总结、模式清理、带故障开放的验证)。你只需更改API密钥和基础URL;智能体代码保持不变。它现在已经上线。我是一位独立创始人,英国公司。仍处于早期阶段——正在寻找在生产环境中运行工具调用智能体的人,告诉我什么能让他们信任路径中的代理。我正在尝试回答的问题:- 你的token膨胀主要来自哪里——工具、历史还是工具结果?- 响应头加上仪表盘展示节省的token是否足够?- 什么会阻止你尝试它?
查看原文

相似文章

降低LLM API成本的10种方法

Reddit r/AI_Agents

一份实用指南,列出了使用LLM API时降低成本的10种策略,包括模型选择、提示缓存、批处理以及监控费用。