@eliebakouch: 明确一下，这是一个建立在闭源模型之上的闭源编排器。如果以前你无法控制模型...

X AI KOLs Following 2026/06/22 06:10 产品

closed-source orchestrator router multi-agent test-time-scaling sakana-ai critique

摘要

Elie Bakouch 批评 Sakana AI 的 Fugu 系统是一个建立在闭源模型之上的闭源编排层，认为它缺乏透明度和真正的人工智能主权，并在路由和成本效率方面存在技术限制。

明确一下，这是一个建立在闭源模型之上的闭源编排器。如果以前你无法控制模型，那么现在你甚至无法控制使用哪些模型以及使用多少。这不是“人工智能主权”。我也阅读了技术报告，以了解技术方面的看法：Fugu（非 ultra 版本）基本上是一个分类器，用于在每一步选择最有可能正确回答的模型（换句话说，一个路由器）。这导致 SWE Bench pro 相比 Opus 得分下降10分，在其他基准测试上有所提升，但非常轻微。有人可能会认为这降低了成本，但没有相关信息，因此很可能相反。他们还有一个自动研究基准测试，在其中与前沿模型“模型 A、B 和 C”进行比较，不公开比较的模型真是太疯狂了。另外，这可能不支持开箱即用地添加新的大语言模型，因为你需要重新训练分类器。关于 Fugu Ultra，这基本上是一个高级计划模式和编排器，它是一个针对查询输出带有多个“工作流”的计划的模型。我对工作流的理解是：他们说“生成模型 A 子代理来实现这个目标，然后使用模型 B 来判断它，然后用模型 C 总结它”，这只是一个测试时扩展计算策略。我认为这是一种还可以的方式，但受限于他们需要在代理开始工作之前预测一切，这就是为什么他们将其限制在5步。在我看来，你需要根据在时间 t 获得的信息来预测在时间 t+1 生成什么，而不是根据时间 t=0 获得的信息。还有其他问题，比如 Terminal Bench 上的 Fable 5 分数错误，并且他们对于 LLM 池中包含哪些模型非常模糊和不清楚（他们只提到了闭源 API 模型）。最大且最明显的问题是，他们引入了一种“测试时扩展”方法，采用模型上的“最佳 N 个”，而且他们几乎从不报告达到基准/任务所需的输出令牌数量或成本。这里正确的比较不是与 Opus 相比，而是与启用了 ultracode/workflows 的 Opus 相比，不是与 Kimi 相比，而是与 Kimi Swarm 等相比。非常非常令人困惑的发布。

查看原文

查看缓存全文

缓存时间: 2026/06/23 01:43

需要明确的是，这是一个基于闭源模型的闭源编排器。如果说以前你无法控制模型，那么现在你甚至连哪些模型被使用、用了多少都无法控制。这并非“AI主权“。

我也阅读了技术报告以了解技术方面的看法：

fugu（非ultra版本）基本上是一个分类器，用于选择每一轮中最有可能正确回答的模型（换句话说，一个路由器）。这使得在SWE Bench pro上相比Opus得分低了10分，在其他基准测试上略有提升但很小。有人可能会说它能降低成本，但没有任何相关信息，所以很可能相反。他们还有一个自动研究基准测试，与前沿模型“Model A, B and C“进行比较，不公开比较的模型是什么真是疯狂。另外，这可能不支持开箱即用地添加新LLM，因为你需要重新训练分类器。

关于fugu ultra，它基本上是一个高级计划和编排器，是一个模型，对于查询会输出包含多个“工作流“的计划。我对工作流的理解是：“生成模型A子代理来完成这个，然后用模型B来评判，用模型C来总结”，这只是一个测试时扩展计算策略。我认为这是一种还可以的方式，但受限于他们需要在代理开始工作之前预测所有内容，这就是为什么他们将其限制为5步。在我看来，你需要根据在t时刻获得的信息来预测在t+1时刻生成什么，而不是根据t=0时刻的信息。还有其他问题，比如Fable 5在Terminal Bench上的得分是错误的，而且他们对于LLM池中包含哪个模型非常含糊不清（只提到了闭源API模型）。

最大且最明显的问题是，他们引入了一种“测试时扩展“方法，对模型进行“Best of N“，但他们在基准测试/任务中从未报告过输出token数量或成本。

这里好的比较不是与Opus，而是启用了Ultracode/Workflows的Opus；不是与Kimi，而是与Kimi Swarm等。发布非常令人困惑。

Sakana AI (@SakanaAILabs): 推出Sakana Fugu：一个可通过单一模型API访问的完整多代理编排系统。

我们的’Fugu Ultra’模型性能与Fable和Mythos相当，提供前沿能力而无出口管制风险。

尝试一下：https://t.co/aDEFyySWlS 🐡

@eliebakouch: 明确一下，这是一个建立在闭源模型之上的闭源编排器。如果以前你无法控制模型...

相似文章

@amitiitbhu: https://x.com/amitiitbhu/status/2069023290182758497

@sashimikun_void: @serenaa_ge 请提供 Deepswe 基准测试

Sakana Fugu

@DeRonin_: 我靠，日本公开发布了Fable级别模型，通过编程和研究基准测试，它几乎等同于……

@rohanpaul_ai: Sakana Fugu Ultra 在实时交易终端编码测试中凭借视觉精美度击败其他模型，接近 GLM 5.2，…

提交意见反馈