$16重构,400步,95%路由到开源MoE

Reddit r/LocalLLaMA 工具

摘要

一位开发者在vLLM上构建了一个路由层,将简单代理步骤路由到廉价的开源MoE模型(21B活跃参数),困难步骤路由到Opus,将400步重构的成本降至15.60美元,成功率达93.4%。

厌倦了160美元的Opus账单,所以我花了一个周末在vLLM 0.8(2xA100,enable_auto_tool_choice)上搭建了一个路由层。让工具调用解析器配合工作比实际路由逻辑花费的时间更长。一旦运行起来,简单的代理步骤会路由到21B活跃参数的MoE模型,困难的步骤则交给Opus。Hunyuan Hy3预览版在一个12,000行Python代码仓库上处理了400步中的380步,每步约0.02美元(总计7.60美元)。Opus处理了剩余的20步,每步0.40美元(总计8美元),所以总共15.60美元。我将常规步骤的推理设置为no_think,这大约减少了30%的token消耗。最终成功率为93.4%。DeepSeek V4达到了类似的准确率,但在搜索循环步骤上运行速度大约慢2倍。14个文件的循环导入重构是它失败的地方。它不断幻觉出不存在的模块路径。腾讯报告在生产中495步工作流中步骤成功率达到99.99%,老实说,对于直接的调用来说确实如此,但复杂的依赖图仍然需要Opus。
查看原文

相似文章