$16重构，400步，95%路由到开源MoE

Reddit r/LocalLLaMA 2026/05/23 15:33 工具

routing-layer cost-optimization moe vllm tool-calling open-source hybrid-inference

摘要

一位开发者在vLLM上构建了一个路由层，将简单代理步骤路由到廉价的开源MoE模型（21B活跃参数），困难步骤路由到Opus，将400步重构的成本降至15.60美元，成功率达93.4%。

厌倦了160美元的Opus账单，所以我花了一个周末在vLLM 0.8（2xA100，enable_auto_tool_choice）上搭建了一个路由层。让工具调用解析器配合工作比实际路由逻辑花费的时间更长。一旦运行起来，简单的代理步骤会路由到21B活跃参数的MoE模型，困难的步骤则交给Opus。Hunyuan Hy3预览版在一个12,000行Python代码仓库上处理了400步中的380步，每步约0.02美元（总计7.60美元）。Opus处理了剩余的20步，每步0.40美元（总计8美元），所以总共15.60美元。我将常规步骤的推理设置为no_think，这大约减少了30%的token消耗。最终成功率为93.4%。DeepSeek V4达到了类似的准确率，但在搜索循环步骤上运行速度大约慢2倍。14个文件的循环导入重构是它失败的地方。它不断幻觉出不存在的模块路径。腾讯报告在生产中495步工作流中步骤成功率达到99.99%，老实说，对于直接的调用来说确实如此，但复杂的依赖图仍然需要Opus。

查看原文

$16重构，400步，95%路由到开源MoE

相似文章

将我的智能体拆分为廉价路由模型和高级合成模型，费用降低了约75%

连续六周每日使用开源桌面Agent Shell的三模型拆分（Haiku三分类器 → Sonnet审查器 → Opus执行器）的真实成本数据与故障记录。

我构建了LEMoE：一个用于本地LLM的无状态、轻量级专家混合（MoE）路由器。开源，欢迎反馈！

我的AI代理账单从每周200美元降到40美元，当我停止在每个子任务上都使用Opus时

@hooeem: https://x.com/hooeem/status/2062266452921491934

提交意见反馈