将我的智能体拆分为廉价路由模型和高级合成模型,费用降低了约75%
摘要
一位开发者将其AI智能体的LLM调用拆分为廉价的路由模型(GPT-OSS 120B)用于工具选择,以及高级模型(gpt-5.4)用于合成,成本降低了约78%,同时保持了输出质量。
我一直在为我们团队(5人,B2B销售场景)构建一个内部信息丰富智能体。它接收一个公司名称列表,并用公开信息对其进行丰富,然后我们的外联人员再进行处理。大约集成了8个工具。常见的工具包括:网络搜索、爬取、内部向量数据库查找、与CRM去重、按ICP匹配度分类、草拟简短的外联段落,以及几个用于处理边缘情况的粘合工具。当我首次让它运行时,所有请求都使用了gpt-5.4,因为那是我的初始设置。运行良好,但费用惊人。第一周处理了约1200家公司,花费约290美元。如果按照销售人员实际想要的量(接近每周5000家),这个成本无法扩展。我仔细查看了日志,费用分解让我大吃一惊。大约75%的LLM调用是我所谓的“路由”调用。根据当前状态、可用工具和上一个工具结果,选择下一个动作。这些调用的输出很小(一个工具名称加一个JSON参数块),其实不需要5.4级别的推理能力。它们只需要便宜、快速,并且足够聪明以避免选择错误的工具。剩下的25%是“合成”调用:总结抓取的页面、草拟段落、推理证据是否真正匹配我们的ICP。这些调用受益于真正的模型。我将架构改为:路由使用GPT-OSS 120B(通过兼容OpenAI的端点,我在GMI Cloud上,其他几个供应商也有类似定价),合成仍然使用gpt-5.4。SDK对此没有特别关注,只需要根据调用位置传递不同的base_url和模型字符串。本周处理了约1400家公司的数据:总费用约65美元。因此,在吞吐量略有提高的情况下成本降低了约78%。最终输出的质量对我们的销售人员来说感觉相同。在完全切换之前,我们并行运行了50家公司进行验证。需要修复的几个问题:1. GPT-OSS 120B的工具调用JSON大部分是干净的,但偶尔会留下一个尾随逗号。对解析做了清理。2. 默认的max_tokens是4096,即使我只想要一个工具选择,模型也乐于填充推理通道。将路由调用的max_tokens降至256,并收紧提示。3. 每次路由调用的延迟平均比5.4慢100-200毫秒,但吞吐量没问题,因为路由不在面向用户的临界路径上。如果您的智能体大多数调用是工具选择决策而非合成,那么这种拆分可能是最大的单一收益。将它们分开后,我们从“无法扩展”变成了“扩展性很好”,而无需更改其他任何东西。我仍在思考的是,GPT-OSS 120B对于路由任务来说是否真的是合适的规模,还是可以进一步降至30B左右的模型以节省更多?随着注册的工具增多,质量可能会下降,我还没有实际测试过。
相似文章
我的AI代理账单从每周200美元降到40美元,当我停止在每个子任务上都使用Opus时
一位开发者分享如何通过将简单子任务路由到更便宜的模型(如DeepSeek V4 Pro和腾讯混元),同时保留复杂推理任务给Opus 4.7,将AI代理的每周成本从200美元降至40美元,且大部分工作质量相近。
质量差距不到2%但成本相差10倍:在相同的工具调用任务上测试5个模型[D]
一位开发者在工具调用任务上测试了五个AI模型,发现廉价模型的表现与Opus等昂贵模型相差不到2%,腾讯混元(Tencent's Hunyuan)成本低于1.50美元,而Opus为15美元,通过将简单任务路由到廉价模型,每日成本从40美元降至9美元。
@cryptopunk7213: 这真是天才。在AI模型越来越昂贵且日益丰富的世界里,这样的产品简直是梦想中的AI护城河……
Factory Router 为每个任务自动选择最佳AI模型,声称能在保持前沿性能的同时削减25%的成本,对大企业来说是一款前景广阔的工具。
Switchcraft:用于智能体工具调用的 AI 模型路由
本文介绍了 Switchcraft,这是首个专为智能体工具调用优化的 AI 模型路由器,旨在降低推理成本。通过使用轻量级的 DistilBERT 分类器,它在保持高工具使用准确性的同时,实现了显著的成本节约。
@IntuitMachine:你的AI编程代理仅修复一个bug就烧掉2美元。你以为这是“廉价自动化”。以下是16,000次生产运行揭示的真相…
对AI编程代理成本的分析显示,代理工作流消耗的token数可达简单ChatGPT调用的3500倍,大部分浪费来自冗余的上下文加载。文章建议追踪重复的文件操作并使用高效模型降低成本。