@eliebakouch: 明确一下,这是一个建立在闭源模型之上的闭源编排器。如果以前你无法控制模型...

X AI KOLs Following 产品

摘要

Elie Bakouch 批评 Sakana AI 的 Fugu 系统是一个建立在闭源模型之上的闭源编排层,认为它缺乏透明度和真正的人工智能主权,并在路由和成本效率方面存在技术限制。

明确一下,这是一个建立在闭源模型之上的闭源编排器。如果以前你无法控制模型,那么现在你甚至无法控制使用哪些模型以及使用多少。这不是“人工智能主权”。 我也阅读了技术报告,以了解技术方面的看法:Fugu(非 ultra 版本)基本上是一个分类器,用于在每一步选择最有可能正确回答的模型(换句话说,一个路由器)。这导致 SWE Bench pro 相比 Opus 得分下降10分,在其他基准测试上有所提升,但非常轻微。有人可能会认为这降低了成本,但没有相关信息,因此很可能相反。他们还有一个自动研究基准测试,在其中与前沿模型“模型 A、B 和 C”进行比较,不公开比较的模型真是太疯狂了。另外,这可能不支持开箱即用地添加新的大语言模型,因为你需要重新训练分类器。 关于 Fugu Ultra,这基本上是一个高级计划模式和编排器,它是一个针对查询输出带有多个“工作流”的计划的模型。我对工作流的理解是:他们说“生成模型 A 子代理来实现这个目标,然后使用模型 B 来判断它,然后用模型 C 总结它”,这只是一个测试时扩展计算策略。我认为这是一种还可以的方式,但受限于他们需要在代理开始工作之前预测一切,这就是为什么他们将其限制在5步。在我看来,你需要根据在时间 t 获得的信息来预测在时间 t+1 生成什么,而不是根据时间 t=0 获得的信息。还有其他问题,比如 Terminal Bench 上的 Fable 5 分数错误,并且他们对于 LLM 池中包含哪些模型非常模糊和不清楚(他们只提到了闭源 API 模型)。 最大且最明显的问题是,他们引入了一种“测试时扩展”方法,采用模型上的“最佳 N 个”,而且他们几乎从不报告达到基准/任务所需的输出令牌数量或成本。 这里正确的比较不是与 Opus 相比,而是与启用了 ultracode/workflows 的 Opus 相比,不是与 Kimi 相比,而是与 Kimi Swarm 等相比。非常非常令人困惑的发布。
查看原文
查看缓存全文

缓存时间: 2026/06/23 01:43

需要明确的是,这是一个基于闭源模型的闭源编排器。如果说以前你无法控制模型,那么现在你甚至连哪些模型被使用、用了多少都无法控制。这并非“AI主权“。

我也阅读了技术报告以了解技术方面的看法:

fugu(非ultra版本)基本上是一个分类器,用于选择每一轮中最有可能正确回答的模型(换句话说,一个路由器)。这使得在SWE Bench pro上相比Opus得分低了10分,在其他基准测试上略有提升但很小。有人可能会说它能降低成本,但没有任何相关信息,所以很可能相反。他们还有一个自动研究基准测试,与前沿模型“Model A, B and C“进行比较,不公开比较的模型是什么真是疯狂。另外,这可能不支持开箱即用地添加新LLM,因为你需要重新训练分类器。

关于fugu ultra,它基本上是一个高级计划和编排器,是一个模型,对于查询会输出包含多个“工作流“的计划。我对工作流的理解是:“生成模型A子代理来完成这个,然后用模型B来评判,用模型C来总结”,这只是一个测试时扩展计算策略。我认为这是一种还可以的方式,但受限于他们需要在代理开始工作之前预测所有内容,这就是为什么他们将其限制为5步。在我看来,你需要根据在t时刻获得的信息来预测在t+1时刻生成什么,而不是根据t=0时刻的信息。还有其他问题,比如Fable 5在Terminal Bench上的得分是错误的,而且他们对于LLM池中包含哪个模型非常含糊不清(只提到了闭源API模型)。

最大且最明显的问题是,他们引入了一种“测试时扩展“方法,对模型进行“Best of N“,但他们在基准测试/任务中从未报告过输出token数量或成本。

这里好的比较不是与Opus,而是启用了Ultracode/Workflows的Opus;不是与Kimi,而是与Kimi Swarm等。发布非常令人困惑。

Sakana AI (@SakanaAILabs): 推出Sakana Fugu:一个可通过单一模型API访问的完整多代理编排系统。

我们的’Fugu Ultra’模型性能与Fable和Mythos相当,提供前沿能力而无出口管制风险。

尝试一下:https://t.co/aDEFyySWlS 🐡

相似文章

Sakana Fugu

Hacker News Top

Sakana Fugu 通过单一 API 动态编排多种顶级模型,以处理复杂的多步骤任务。它利用其在 ICLR 2026 论文中提出的学习型编排方法,实现了前沿水平的性能,同时避免了对单一供应商的依赖。