$16重构,400步,95%路由到开源MoE
摘要
一位开发者在vLLM上构建了一个路由层,将简单代理步骤路由到廉价的开源MoE模型(21B活跃参数),困难步骤路由到Opus,将400步重构的成本降至15.60美元,成功率达93.4%。
厌倦了160美元的Opus账单,所以我花了一个周末在vLLM 0.8(2xA100,enable_auto_tool_choice)上搭建了一个路由层。让工具调用解析器配合工作比实际路由逻辑花费的时间更长。一旦运行起来,简单的代理步骤会路由到21B活跃参数的MoE模型,困难的步骤则交给Opus。Hunyuan Hy3预览版在一个12,000行Python代码仓库上处理了400步中的380步,每步约0.02美元(总计7.60美元)。Opus处理了剩余的20步,每步0.40美元(总计8美元),所以总共15.60美元。我将常规步骤的推理设置为no_think,这大约减少了30%的token消耗。最终成功率为93.4%。DeepSeek V4达到了类似的准确率,但在搜索循环步骤上运行速度大约慢2倍。14个文件的循环导入重构是它失败的地方。它不断幻觉出不存在的模块路径。腾讯报告在生产中495步工作流中步骤成功率达到99.99%,老实说,对于直接的调用来说确实如此,但复杂的依赖图仍然需要Opus。
相似文章
将我的智能体拆分为廉价路由模型和高级合成模型,费用降低了约75%
一位开发者将其AI智能体的LLM调用拆分为廉价的路由模型(GPT-OSS 120B)用于工具选择,以及高级模型(gpt-5.4)用于合成,成本降低了约78%,同时保持了输出质量。
连续六周每日使用开源桌面Agent Shell的三模型拆分(Haiku三分类器 → Sonnet审查器 → Opus执行器)的真实成本数据与故障记录。
一项为期六周的真实世界实验,使用开源桌面Agent Shell的三模型拆分(Haiku三分类器、Sonnet审查器、Opus执行器),报告了64%的成本降低,并详细描述了诸如上下文膨胀和子Agent失控等故障模式。
我构建了LEMoE:一个用于本地LLM的无状态、轻量级专家混合(MoE)路由器。开源,欢迎反馈!
LEMoE是一个开源、无状态的专家混合(MoE)路由器,作为API代理将提示路由到专门的LLM,具有级联上下文路由和静默自纠正功能。
我的AI代理账单从每周200美元降到40美元,当我停止在每个子任务上都使用Opus时
一位开发者分享如何通过将简单子任务路由到更便宜的模型(如DeepSeek V4 Pro和腾讯混元),同时保留复杂推理任务给Opus 4.7,将AI代理的每周成本从200美元降至40美元,且大部分工作质量相近。
@hooeem: https://x.com/hooeem/status/2062266452921491934
一份指南,解释如何通过将固定流程编译成更小的微调模型,而不是反复提示前沿模型,从而使代理工作流成本降低高达462倍。