我的AI代理账单从每周200美元降到40美元,当我停止在每个子任务上都使用Opus时
摘要
一位开发者分享如何通过将简单子任务路由到更便宜的模型(如DeepSeek V4 Pro和腾讯混元),同时保留复杂推理任务给Opus 4.7,将AI代理的每周成本从200美元降至40美元,且大部分工作质量相近。
我构建了一个代理,用于将研究论文转换为幻灯片。它串联了几个步骤:提取关键发现、构建大纲、编写幻灯片内容、查询图像搜索工具、将所有内容格式化为演示库所需的XML。我最初将每个步骤都连接到Opus 4.7,因为这是我知道可行的方案。单篇论文转换运行在所有步骤中大约消耗200万到300万token。根据Anthropic当前的价格表,Opus 4.7每百万输入token收费5美元,每百万输出token收费25美元,因此一次典型运行成本大约在20到30美元之间,具体取决于论文中的图表数量。上周我用纯Opus运行这个工具,账单大约是211美元。其中一篇特别长的论文包含47个图表,单次运行花费了我大约34美元,这终于让我忍无可忍,开始审计token的去向。超过一半的token消耗在机械性工作上:撰写幻灯片要点、构建图像搜索查询、将最终大纲转换为演示XML。这些工作都不需要前沿推理能力。我将执行层迁移到DeepSeek V4 Pro,它干净地处理了起草和工具调用。几天后,我还在相同步骤中加入了腾讯混元Hy3预览版。按照腾讯云每百万输出token约0.59美元对比Opus 4.7每百万输出token 25美元(均基于提供商公布的价格表),这显然更便宜。上周采用分层设置后,总花费约为41美元。我对同一批论文中的五份幻灯片进行了盲测,我的导师无法分辨哪些使用了Opus,哪些使用了廉价层,这让我有点惊讶。工具调用是我最担心会出问题的部分,但它表现良好。根据OpenRouter的排名,该模型目前在工具调用量上排名第一,这与我自己的MCP循环中观察到的一致:函数参数格式正确,多轮调用中没有模式漂移。不过,当我让它处理一篇包含密集数学证明的论文并要求为幻灯片重建推理链时,输出很肤浅且遗漏了关键步骤。对于这类工作,Opus仍然物有所值。我目前的路由是按步骤硬编码的。如果子任务涉及对新颖论点或架构决策的理解,则使用Opus。其他所有任务则根据我当周测试的模型,交给DeepSeek或更便宜的MoE模型处理。我最终想实现动态路由,但我第一次尝试构建提示复杂度分类器时一塌糊涂。它不断放行那些看起来像标准文献综述但方法部分包含密集符号的论文,而正是这些论文会导致廉价层产生肤浅的输出。目前,手动标记是可行的,而且我不相信自己能构建一个可靠捕获这些边缘情况的分类器。
相似文章
质量差距不到2%但成本相差10倍:在相同的工具调用任务上测试5个模型[D]
一位开发者在工具调用任务上测试了五个AI模型,发现廉价模型的表现与Opus等昂贵模型相差不到2%,腾讯混元(Tencent's Hunyuan)成本低于1.50美元,而Opus为15美元,通过将简单任务路由到廉价模型,每日成本从40美元降至9美元。
将我的智能体拆分为廉价路由模型和高级合成模型,费用降低了约75%
一位开发者将其AI智能体的LLM调用拆分为廉价的路由模型(GPT-OSS 120B)用于工具选择,以及高级模型(gpt-5.4)用于合成,成本降低了约78%,同时保持了输出质量。
@0xDepressionn: https://x.com/0xDepressionn/status/2062185806999994444
一个团队通过使用Claude Opus 4.8进行编排、Kimi K2.6 Agent Swarm执行任务,配合一个包含15个提示词的详细系统,将AI工作流成本从每月62,000美元大幅削减至7,800美元。
@IntuitMachine:你的AI编程代理仅修复一个bug就烧掉2美元。你以为这是“廉价自动化”。以下是16,000次生产运行揭示的真相…
对AI编程代理成本的分析显示,代理工作流消耗的token数可达简单ChatGPT调用的3500倍,大部分浪费来自冗余的上下文加载。文章建议追踪重复的文件操作并使用高效模型降低成本。
编码中90%的枯燥任务基本上已被解决
一位开发者分享使用廉价AI模型(DeepSeek v4、Hunyuan Hy3预览版)自动化90%编码任务的经验,而Opus则用于更难的10%,强调了成本和延迟权衡。