Sakana Fugu（三分钟阅读）

TLDR AI 2026/06/22 00:00 论文

inference-time-scaling mcts collective-intelligence multi-model frontier-models arc-agi open-source

摘要

Sakana AI 推出 AB-MCTS，一种推理时缩放算法，使多个前沿 AI 模型（Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528）协同工作，在 ARC-AGI-2 基准测试中显著优于单个模型。

Sakana Fugu 是一个多智能体系统，行为如同单个模型。Fugu 可以决定是直接处理请求，还是协调一组专家模型。它负责模型选择、任务委派、验证和结果整合。用户只需调用一个模型，专家系统便会协同完成工作。Sakana Fugu 和 Fugu Ultra 现已通过单个兼容 OpenAI 的 API 提供。

查看原文

查看缓存全文

缓存时间: 2026/06/22 13:31

# @SakanaAILabs 在 Thread Reader 上的帖子来源：https://threadreaderapp.com/thread/2068862070062485867.html 我们很高兴推出 AB\-MCTS！这一新的推理时扩展算法让多个前沿模型（如 Gemini 2.5 Pro、o4\-mini、DeepSeek\-R1\-0528）能够协同工作，从而实现 AI 的集体智能。博客：sakana.ai/ab-mcts (https://sakana.ai/ab-mcts) 论文：arxiv.org/abs/2503.04412 (https://arxiv.org/abs/2503.04412) 受人类集体智能力量的启发——最伟大的成就往往源自不同思想的协作——我们相信同样的原理也适用于 AI。诸如 ChatGPT、Gemini 和 DeepSeek 等单个前沿模型已经极为先进，每个模型都因训练过程而拥有独特的优势和偏见，我们视这些为集体解决问题的宝贵资源。 AB\-MCTS（自适应分支蒙特卡洛树搜索）利用这些个体差异，让多个模型能够协作并进行有效的试错，从而解决任何单一 AI 难以单独应对的难题。我们在 ARC\-AGI\-2 基准测试上的初步结果令人鼓舞：AB\-MCTS 将 o4\-mini、Gemini\-2.5\-Pro 和 R1\-0528 这些当前前沿 AI 模型结合起来，其表现显著优于各单个模型。这项研究建立在我们 2024 年关于进化模型合并的工作之上，将焦点从“混合以创造”转向“混合以使用”现有的强大 AI。在 Sakana AI，我们始终致力于应用自然启发的原理（如进化和集体智能）来开创新型 AI 系统。我们相信这项工作是迈向未来的一步——未来 AI 系统将像人类专家团队一样协同应对复杂挑战，解锁新的问题解决能力，超越单一模型的局限。算法（TreeQuest）：github.com/SakanaAI/treeq... (https://github.com/SakanaAI/treequest) ARC\-AGI 实验：github.com/SakanaAI/ab\-mc... (https://github.com/SakanaAI/ab-mcts-arc2) 图片 (https://pbs.twimg.com/media/Guu-b3DXkAE-ROp.jpg) 将 o4\-mini、Gemini\-2.5\-Pro 和 R1\-0528 这些当前前沿 AI 模型组合而成的 AB\-MCTS，在 ARC\-AGI\-2 基准测试上取得了强劲表现，大幅超越各单个模型。我们已开源 AB\-MCTS 的实现：github.com/SakanaAI/treeq... (https://github.com/SakanaAI/treequest) ARC\-AGI\-2 上 AB\-MCTS 及 Multi\-LLM AB\-MCTS 的结果，展示了 Pass@k 随 LLM 调用次数变化的曲线。 (https://pbs.twimg.com/media/Guv26nqWcAEm7dh.jpg) 许多在单个 LLM 下无法解决的 ARC\-AGI\-2 示例，通过组合多个 LLM 得以解决。在某些情况下，o4\-mini 最初错误的尝试被 R1\-0528 和 Gemini\-2.5\-Pro 用作提示，最终得到正确解法。 ARC\-AGI\-2 代码：github.com/SakanaAI/ab\-mc... (https://github.com/SakanaAI/ab-mcts-arc2) ARC-AGI-2 的一个示例题目：任务是从左侧三个演示样例中推断出通用的变换规则，并将其应用于右侧的测试用例。这是通过 Multi-LLM AB-MCTS 变得可解的问题之一。 (https://pbs.twimg.com/media/GuxWQUnXgAAE5Ho.jpg)

Sakana Fugu（三分钟阅读）

相似文章

Sakana Fugu

Sakana Fugu

@rohanpaul_ai: Sakana Fugu Ultra 在实时交易终端编码测试中凭借视觉精美度击败其他模型，接近 GLM 5.2，…

@DeRonin_: 我靠，日本公开发布了Fable级别模型，通过编程和研究基准测试，它几乎等同于……

@amitiitbhu: https://x.com/amitiitbhu/status/2069023290182758497

提交意见反馈