我的AI代理账单从每周200美元降到40美元,当我停止在每个子任务上都使用Opus时

Reddit r/AI_Agents 新闻

摘要

一位开发者分享如何通过将简单子任务路由到更便宜的模型(如DeepSeek V4 Pro和腾讯混元),同时保留复杂推理任务给Opus 4.7,将AI代理的每周成本从200美元降至40美元,且大部分工作质量相近。

我构建了一个代理,用于将研究论文转换为幻灯片。它串联了几个步骤:提取关键发现、构建大纲、编写幻灯片内容、查询图像搜索工具、将所有内容格式化为演示库所需的XML。我最初将每个步骤都连接到Opus 4.7,因为这是我知道可行的方案。单篇论文转换运行在所有步骤中大约消耗200万到300万token。根据Anthropic当前的价格表,Opus 4.7每百万输入token收费5美元,每百万输出token收费25美元,因此一次典型运行成本大约在20到30美元之间,具体取决于论文中的图表数量。上周我用纯Opus运行这个工具,账单大约是211美元。其中一篇特别长的论文包含47个图表,单次运行花费了我大约34美元,这终于让我忍无可忍,开始审计token的去向。超过一半的token消耗在机械性工作上:撰写幻灯片要点、构建图像搜索查询、将最终大纲转换为演示XML。这些工作都不需要前沿推理能力。我将执行层迁移到DeepSeek V4 Pro,它干净地处理了起草和工具调用。几天后,我还在相同步骤中加入了腾讯混元Hy3预览版。按照腾讯云每百万输出token约0.59美元对比Opus 4.7每百万输出token 25美元(均基于提供商公布的价格表),这显然更便宜。上周采用分层设置后,总花费约为41美元。我对同一批论文中的五份幻灯片进行了盲测,我的导师无法分辨哪些使用了Opus,哪些使用了廉价层,这让我有点惊讶。工具调用是我最担心会出问题的部分,但它表现良好。根据OpenRouter的排名,该模型目前在工具调用量上排名第一,这与我自己的MCP循环中观察到的一致:函数参数格式正确,多轮调用中没有模式漂移。不过,当我让它处理一篇包含密集数学证明的论文并要求为幻灯片重建推理链时,输出很肤浅且遗漏了关键步骤。对于这类工作,Opus仍然物有所值。我目前的路由是按步骤硬编码的。如果子任务涉及对新颖论点或架构决策的理解,则使用Opus。其他所有任务则根据我当周测试的模型,交给DeepSeek或更便宜的MoE模型处理。我最终想实现动态路由,但我第一次尝试构建提示复杂度分类器时一塌糊涂。它不断放行那些看起来像标准文献综述但方法部分包含密集符号的论文,而正是这些论文会导致廉价层产生肤浅的输出。目前,手动标记是可行的,而且我不相信自己能构建一个可靠捕获这些边缘情况的分类器。
查看原文

相似文章

编码中90%的枯燥任务基本上已被解决

Reddit r/singularity

一位开发者分享使用廉价AI模型(DeepSeek v4、Hunyuan Hy3预览版)自动化90%编码任务的经验,而Opus则用于更难的10%,强调了成本和延迟权衡。