Sakana Fugu(三分钟阅读)
摘要
Sakana AI 推出 AB-MCTS,一种推理时缩放算法,使多个前沿 AI 模型(Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528)协同工作,在 ARC-AGI-2 基准测试中显著优于单个模型。
Sakana Fugu 是一个多智能体系统,行为如同单个模型。Fugu 可以决定是直接处理请求,还是协调一组专家模型。它负责模型选择、任务委派、验证和结果整合。用户只需调用一个模型,专家系统便会协同完成工作。Sakana Fugu 和 Fugu Ultra 现已通过单个兼容 OpenAI 的 API 提供。
查看缓存全文
缓存时间: 2026/06/22 13:31
# @SakanaAILabs 在 Thread Reader 上的帖子
来源:https://threadreaderapp.com/thread/2068862070062485867.html
我们很高兴推出 AB\-MCTS!
这一新的推理时扩展算法让多个前沿模型(如 Gemini 2.5 Pro、o4\-mini、DeepSeek\-R1\-0528)能够协同工作,从而实现 AI 的集体智能。
博客:sakana.ai/ab-mcts (https://sakana.ai/ab-mcts) 论文:arxiv.org/abs/2503.04412 (https://arxiv.org/abs/2503.04412)
受人类集体智能力量的启发——最伟大的成就往往源自不同思想的协作——我们相信同样的原理也适用于 AI。诸如 ChatGPT、Gemini 和 DeepSeek 等单个前沿模型已经极为先进,每个模型都因训练过程而拥有独特的优势和偏见,我们视这些为集体解决问题的宝贵资源。
AB\-MCTS(自适应分支蒙特卡洛树搜索)利用这些个体差异,让多个模型能够协作并进行有效的试错,从而解决任何单一 AI 难以单独应对的难题。我们在 ARC\-AGI\-2 基准测试上的初步结果令人鼓舞:AB\-MCTS 将 o4\-mini、Gemini\-2.5\-Pro 和 R1\-0528 这些当前前沿 AI 模型结合起来,其表现显著优于各单个模型。
这项研究建立在我们 2024 年关于进化模型合并的工作之上,将焦点从“混合以创造”转向“混合以使用”现有的强大 AI。在 Sakana AI,我们始终致力于应用自然启发的原理(如进化和集体智能)来开创新型 AI 系统。我们相信这项工作是迈向未来的一步——未来 AI 系统将像人类专家团队一样协同应对复杂挑战,解锁新的问题解决能力,超越单一模型的局限。
算法(TreeQuest):github.com/SakanaAI/treeq... (https://github.com/SakanaAI/treequest)
ARC\-AGI 实验:github.com/SakanaAI/ab\-mc... (https://github.com/SakanaAI/ab-mcts-arc2)
图片 (https://pbs.twimg.com/media/Guu-b3DXkAE-ROp.jpg)
将 o4\-mini、Gemini\-2.5\-Pro 和 R1\-0528 这些当前前沿 AI 模型组合而成的 AB\-MCTS,在 ARC\-AGI\-2 基准测试上取得了强劲表现,大幅超越各单个模型。
我们已开源 AB\-MCTS 的实现:github.com/SakanaAI/treeq... (https://github.com/SakanaAI/treequest)
ARC\-AGI\-2 上 AB\-MCTS 及 Multi\-LLM AB\-MCTS 的结果,展示了 Pass@k 随 LLM 调用次数变化的曲线。 (https://pbs.twimg.com/media/Guv26nqWcAEm7dh.jpg)
许多在单个 LLM 下无法解决的 ARC\-AGI\-2 示例,通过组合多个 LLM 得以解决。在某些情况下,o4\-mini 最初错误的尝试被 R1\-0528 和 Gemini\-2.5\-Pro 用作提示,最终得到正确解法。
ARC\-AGI\-2 代码:github.com/SakanaAI/ab\-mc... (https://github.com/SakanaAI/ab-mcts-arc2)
ARC-AGI-2 的一个示例题目:任务是从左侧三个演示样例中推断出通用的变换规则,并将其应用于右侧的测试用例。这是通过 Multi-LLM AB-MCTS 变得可解的问题之一。 (https://pbs.twimg.com/media/GuxWQUnXgAAE5Ho.jpg)
相似文章
Sakana Fugu
Sakana Fugu 是一个新工具,能够将多个AI模型组合成一个,受“一个模型统领所有”概念的启发。
Sakana Fugu
Sakana Fugu 通过单一 API 动态编排多种顶级模型,以处理复杂的多步骤任务。它利用其在 ICLR 2026 论文中提出的学习型编排方法,实现了前沿水平的性能,同时避免了对单一供应商的依赖。
@rohanpaul_ai: Sakana Fugu Ultra 在实时交易终端编码测试中凭借视觉精美度击败其他模型,接近 GLM 5.2,…
Sakana 的 Fugu Ultra 模型编排系统在交易终端 UI 的实时编码测试中表现优于其他模型,尽管成本高出 17 倍,但展示了其在视觉精美度和多智能体协调方面的优势。
@DeRonin_: 我靠,日本公开发布了Fable级别模型,通过编程和研究基准测试,它几乎等同于……
Sakana AI 发布了 Fugu Ultra,这是一个多智能体编排系统,可通过单一模型 API 访问,其性能与 Fable 和 Mythos 模型相当。
@amitiitbhu: https://x.com/amitiitbhu/status/2069023290182758497
详细博客文章,解释Sakana Fugu技术报告,该报告介绍了将任务路由到专业模型以实现集体智能的编排器AI模型。