Sakana Fugu

Hacker News Top 产品

摘要

Sakana Fugu 通过单一 API 动态编排多种顶级模型,以处理复杂的多步骤任务。它利用其在 ICLR 2026 论文中提出的学习型编排方法,实现了前沿水平的性能,同时避免了对单一供应商的依赖。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/22 04:30

# Sakana Fugu — 多智能体系统作为模型 来源: https://sakana.ai/fugu/ 一个模型统御一切 — 指挥多智能体的单一模型 前沿级性能,摆脱单一供应商依赖。Fugu 动态编排全球最佳模型,应对复杂多步骤任务。通过单一 API 将集体智能直接融入您的工作流。Sakana Fugu 动态编排全球顶尖模型群,自动解决涉及多步骤的复杂任务。将高性能 API 集成到您的工作流中。 尚不支持欧盟/欧洲经济区,我们正在努力遵守 GDPR 及欧盟特定法规。由于正在推进对 GDPR 等欧盟/欧洲经济区特有法规的合规工作,目前无法在欧盟/欧洲经济区内使用。 ## 多智能体系统,以单一模型 API 形式交付マルチエージェントを、一つのモデルAPIとして提供 Sakana Fugu 通过动态协调与编排多样化的强大模型池来实现卓越性能。Fugu 并非利用领域知识预先规定团队组织、角色或工作流,而是学习从模型池中动态组建智能体,并通过不易察觉但高效的合作模式进行协调。Sakana Fugu 通过动态组合和协调强大且多样化的模型群来实现高性能。它能高效学习人类无法想到的模型编排、角色分工和流程推进方式,从而发挥出色成果。 Sakana Fugu 架构总览 01 ### 一个 API 以优化方式访问所有模型一つのAPIで、複数モデルを最適に活用 通过一个 API 访问经过协调的专业模型池。Fugu 负责处理每个任务的模型选择和切换,在降低 API 复杂度的同时提升成本效益。専門特化型のモデル群を、一つのAPIから利用することができます。タスクごとのモデルの選択と切り替えはSakana Fuguが担うため、APIまわりの煩雑さを抑えつつ、コストパフォーマンスを高められます。 02 ### 在复杂任务上提供卓越性能複雑なタスクで優れたパフォーマンス 专为编码、推理和其他对质量要求严苛的工作流而构建,Fugu 协调专家智能体以更强、更可靠的结果应对复杂任务。Sakana Fuguは、コーディングや推論(リーズニング)など、高い品質が問われるワークフローのために設計されています。専門エージェントを連携させることで、複雑なタスクにもより確かで信頼できる答えを導きます。 03 ### 提供智能体选择的灵活性柔軟なエージェント選択 控制哪些智能体可以参与 Fugu 的模型池。可选择退出特定提供商或模型,以满足数据、隐私、合规或组织要求。Sakana Fuguのモデルプールに加えるエージェントを選ぶことができます。データ、プライバシー、コンプライアンス、または組織の要件を満たすために、特定のプロバイダーやモデルを除外することが可能です。 ## 研究驱动的多智能体智能协作技术マルチエージェントの知能を支える、 最新研究に基づく協調技術 Sakana Fugu 基于两篇关于学习型模型编排的 ICLR 2026 论文:TRINITY 和 Conductor。它们共同展示了系统如何学会为每个任务组装、路由和协调专家智能体,而不是依赖手工设计的工作流。欲深入了解该系统背后的思想,请查阅我们的技术报告 (https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf)。Sakana Fuguは、モデルのオーケストレーションを学習で実現する2本のICLR 2026論文「TRINITY」と「Conductor」を基盤としています。これらの研究は、人手で設計したワークフローに頼るのではなく、タスクごとに専門エージェントをどう編成し、振り分け、連携させるかをシステム自身が学習できることを示しています。仕組みの詳細は、テクニカルレポート (https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf)をご覧ください。 TRINITY 研究论文封面图。 论文 (https://arxiv.org/abs/2512.04695)### TRINITY: 进化型 LLM 协调器TRINITY:進化型LLMコーディネーター (https://arxiv.org/abs/2512.04695) Trinity 使用轻量级进化协调器在多个回合中统筹多个 LLM,分配 Thinker、Worker 或 Verifier 角色,以自适应地委派编码、数学、推理和知识任务。TRINITY は、軽量な進化型コーディネーターが複数のLLMを複数ターンにわたって統括する仕組み。各モデルに「Thinker(思考役)」「Worker(実行役)」「Verifier(検証役)」の役割を割り当て、コーディング・数学・推論・知識といった幅広いタスクに応じて、作業を適応的に振り分ける。 Conductor 研究论文封面图。 论文 (https://arxiv.org/abs/2512.04388)### Conductor 学习以自然语言编排智能体Conductor による自然言語でのエージェント統率の学習 (https://arxiv.org/abs/2512.04388) Conductor 通过强化学习进行训练,发现自然语言协调策略,设计智能体通信模式和有重点的提示,帮助多样化的 LLM 池在具有挑战性的推理基准上超越单个工作模型。Conductor は強化学習によって訓練され、自然言語ベースの協調戦略を自ら見つけ出す。エージェント間のやり取りの型や、要点を絞ったプロンプトを設計することで、多様なLLMの集まりが、難度の高い推論ベンチマークで単体のモデルを上回る力を発揮。 ## 通过 API 释放多智能体智能API を通じてマルチエージェント知能を解き放つ Sakana Fugu 提供两种模型——**Fugu** 和 **Fugu Ultra**——均通过一个兼容 OpenAI 的 API 访问。选择适合您工作负载的模型,无需更改集成即可在两者之间切换。Sakana Fuguには**Fugu**と**Fugu Ultra**の 2 つのモデルがあり、どちらも OpenAI 互換 API から利用できます。ワークロードに合うモデルを選んでも、連携を変えずに両者を切り替えてもかまいません。 Fugu性能与延迟的平衡 Fugu 在强大性能与低延迟之间取得平衡,是日常工作的理想默认选择。将其放入 Codex 等工具中用于编码和代码审查,或驱动响应迅速的聊天机器人服务——所有这些都隐藏在单一端点之后。您还可以从其模型池中选择退出特定智能体,以满足数据、隐私和合规要求。Sakana Fuguは高い性能と低レイテンシを両立し、日々の作業に最適な標準モデルです。Codex のようなツールに組み込んでコーディングやコードレビューに使ったり、応答性の高いチャットボットを動かしたり——すべてをひとつのエンドポイントで実現します。データ・プライバシー・コンプライアンスの制約に合わせて、プールから特定のエージェントを除外することもできます。 Fugu Ultra针对性能优化 Fugu Ultra 协调更深的专家智能体池,以最大化困难、高利害问题的回答质量。早期用户依赖它参加 Kaggle 竞赛、复现论文、进行网络安全分析以及文献和专利调查。Fugu Ultra は、より広い専門エージェントのプールを連携させ、難易度が高く重要な問題で回答品質を最大化します。先行ユーザーは、Kaggle コンペティション、論文の再現、サイバーセキュリティ分析、文献・特許調査などに活用しています。 ## 定量结果Sakana Fuguの性能:定量評価 我们的 Fugu 模型超越了公开可访问的前沿模型,在各项严格的工程、科学和推理基准测试中与 Fable 5 和 Mythos Preview 并驾齐驱,同时提供前沿能力,没有出口管制的风险。二つのFuguモデルは、一般に利用できるフロンティアモデルを上回り、エンジニアリング・科学・推論のさまざまな難関ベンチマークでも、Fable 5やMythos Previewと肩を並べます。しかも、輸出規制のリスクを負うことなく、フロンティアレベルの実力を発揮します。 基准对比图 Fugu 模型与基线前沿模型在一系列编码、推理、科学和智能体基准上的性能对比。对于 Fable 5 和 Mythos Preview,如果同一基准上两个分数都可用,我们报告两者中的较大值。这两个模型均未纳入 Fugu 的智能体池,因为它们不公开访问。コーディング、リーズニング、科学、エージェント能力に関するベンチマーク群における、Fuguモデルとベースラインのフロンティアモデルの性能比較。Fable 5とMythos Previewについては、同一ベンチマークで両方のスコアが入手できる場合、その高い方を採用。なお、両モデルは一般提供されていないため、Fuguのエージェントプールには含まれていない。 最高分以粗体显示;第二高分以下划线标出。最高スコアは太字、2 番目に高いスコアは下線で示しています。 | 基准 | Fugu | Fugu Ultra | Opus 4.8† | Gemini 3.1 Pro† | GPT 5.5† | |---|---|---|---|---|---| | SWE Bench Pro* | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 | | TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 | | LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 | | LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 | | Humanity’s Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 | | CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 | | GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 | | SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 | | τ3 Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 | | Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 | | MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 | \* 我们使用 mini-swe-agent 作为该任务的脚手架。\* mini-swe-agent をスキャフォールドとして使用。 † 我们使用模型提供商报告的基线分数。† モデル提供元が公表したスコア。 ## 定性结果Sakana Fuguの性能:定性的な例 以下示例将 Sakana Fugu 模型与三个前沿基线——**Gemini 3.1 Pro (high)**、**Opus 4.8 (max)** 和 **GPT 5.5 (xhigh)**——进行比较。为了聚焦行为而非品牌归属,基线与每次描述中匿名化为**模型 A**、**模型 B** 和 **模型 C**。**映射关系在示例之间有意不固定。**以下の例では、Sakana Fuguを、**Gemini 3.1 Pro(high)**、**Opus 4.8 (max)**、**GPT 5.5(xhigh)**の3つのフロンティアモデルと比較しています。個別モデルではなく挙動の違いに注目できるよう、ベースラインを**Model A**、**Model B**、**Model C**として匿名化しています。**なお、どのモデルがA〜Cかは例ごとに変えています。** **示例 1 — AutoResearch / LLM 训练实验** 该实验展示了一个 AI 智能体自主改进小型 GPT 的训练方案。使用 AutoResearch(Karpathy 等人)——迭代编辑训练代码、运行实验、并仅保留降低验证 bits-per-byte (BPB) 的更改——该智能体在单个 H100 GPU 上运行了约 14 小时,进行了 123 次实验。每条线追踪了随实验积累各系统达到的最佳 BPB:Fugu-Ultra 以粗红线表示(实线 = 三次随机种子的平均值,虚线 = 最佳单次运行),三个前沿模型基线(模型 A、B 和 C)淡色绘制在后方,标注点表示智能体自行发现的每项改进——涵盖批量大小、模型深度、学习率和优化器设置。Fugu-Ultra 以最佳平均 BPB (0.9774 ± 0.0019) 收官,领先于模型 C (0.9781)、模型 B (0.9793) 和模型 A (0.9822),其最佳单次运行达到 0.9748,领先所有基线。这表明在智能体型机器学习研究中,协调多个强模型可以超越任何单个前沿模型。 **示例 2 — 假名消息(仮名消息)的阅读顺序恢复** 本次案例研究测试能否恢复古典日语假名字母(仮名消息)的阅读顺序——这些信件采用散らし書き(“散落书写”)布局,即使对于训练有素的古典日语读者来说,这也确实困难。每个模型都获得了字符边界框以及一组粗略的阅读顺序规则,并编写代码输出字符应被阅读的顺序;此处代码运行于来自芳春院 (1547–1617) 写于 1610 年的一封信,以 NED(基于专家真实顺序的归一化编辑距离得分,1.0 为完美匹配)评分。多个前沿模型通过相同的流水线处理,但在这封信上没有一个接近 Fugu-Ultra:模型 A 仅达到 NED 0.24,模型 B 也好不到哪里去,都远低于 Fugu-Ultra 的 0.80,而模型 C 根本没有产生预测器。视频片段显示了两个极端——每个面板用红色绘制其预测路径,绿色为专家的真实路径:Fugu-Ultra(顶部)几乎准确追踪了信件,而模型 A(底部)在页面上到处跳跃。(信件由庆应义塾大学斯道文库收藏。) **示例 3 — 魔方求解器** 在本基准测试中,Fugu-Ultra 和 3 个前沿模型各自获得单一提示,从头开始用纯 Python 编写魔方求解器——不允许使用现成的求解库——生成程序在本地对 300 个随机打乱的魔方独立测试集运行。解的质量通过解所使用的步数来衡量,步数越少越好。Fugu-Ultra 和前沿模型 A 编写的求解器能够运行并解出全部 300 个魔方,而模型 B 和模型 C 各自输出了看起来复杂但在执行时崩溃的代码,未返回任何有效解(0/300)。视频片段跟随第 17 号魔方:从相同的打乱开始,Fugu-Ultra 的求解器在 19 步内达到完成状态,而模型 A 需要 21 步——在所有 300 个魔方上,Fugu-Ultra 平均 19.72 步,模型 A 为 19.76 步,两者都处于最优解边缘,且 Fugu-Ultra 在任何魔方上从未比模型 A 多用一步(7 胜、293 平、0 负)。 **示例 4 — CAD 机械光圈** 任务:在 CAD 中创建机械光圈,如相机光圈,其中多个叶片共同运动以打开和关闭中心孔。对于每个模型,我们展示生成的详细 CAD 本身以及使结构更易于查看的简化视图。在 Fugu Ultra 生成的 CAD 中,叶片围绕外销旋转并清楚地打开和关闭光圈。相比之下,其他模型生成的 CAD 显示出诸如出现间隙、连接薄弱或光圈无法完全关闭等问题。 **示例 5 — 蒙目国际象棋** 连续四局蒙目国际象棋。每个模型以相同方式下棋——不显示棋盘——将完整对局保持在记忆中。Fugu 击败了四个强劲对手:三个领先前沿模型和一个 Elo 2100 的 Stockfish 引擎,在对手出现偏差时保持准确,并以将杀结束每一局。 **示例 6 — 股票交易** 本基准测试使用一个在历史 50 周窗口内的单一匿名化股票,旨在比较顺序、无前瞻的决策制定,而非建立可推广的交易表现。过去表现不保证未来结果,结果可能不适用于其他资产、时间段或真实市场。每个模型对匿名化的 STOCK_X 进行在线交易决策,仅使用当前和过去的每周市场数据:开盘价、最高价、最低价、收盘价、成交量、收益、移动平均线、波动率、回撤、投资组合状态和先前的反馈。从 10,000 美元开始,智能体选择买入、持有或卖出,以及交易现金或股票的比例。每次行动后,下一周的价格被揭示,投资组合被更新,因此模型必须从反馈中适应,而不是看到未来。在五次运行相同的 50 周流水线中,Fugu-Ultra 将投资组合增长到 11,943.22 ± 633.86 美元,平均收益 +19.43%,而其他前沿模型收益均低于 +15%。 ## 用户对 Sakana Fugu 的评价 01 软件工程师

相似文章

Sakana Fugu

Product Hunt

Sakana Fugu 是一个新工具,能够将多个AI模型组合成一个,受“一个模型统领所有”概念的启发。

Sakana Fugu(三分钟阅读)

TLDR AI

Sakana AI 推出 AB-MCTS,一种推理时缩放算法,使多个前沿 AI 模型(Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528)协同工作,在 ARC-AGI-2 基准测试中显著优于单个模型。