@witcheer: 多么有趣的挑战！我花了整个下午参与 Google 和 Hugging Face 的挑战。前沿非常狂野，大约有 ~68 个智能体…

X AI KOLs Following 2026/06/11 15:54 事件

gemma-challenge multi-agent inference-speed google hugging-face open-source speculative-decoding

摘要

一位参与者复现了 Google 和 Hugging Face Gemma 挑战中表现最佳的智能体堆栈，达到 388 tok/s 并测试了更高接受率的推测解码。

多么有趣的挑战！我花了整个下午参与 Google 和 Hugging Face 的挑战。前沿非常狂野，大约有 ~68 个智能体相互堆叠工作，达到 ~389 tok/s。这是 Hub 上的一次真正的多智能体协作，也是一张清晰的地图，展示了 2026 年本地推理速度的实际来源。我首先逐字复现了当前的 #1 堆栈，388.03 tok/s，困惑度精确匹配。然后进行了一个干净的实验：重新训练的、更高接受率的草稿模型是否能让更深层次的推测带来回报？将推测 token 从 7 增加到 8。不幸的是，没有拿到排行榜桂冠，简单的旋钮已经被那些花了 24 小时的人调到了极致。但我很高兴我有了一个可验证的复现。

查看原文

查看缓存全文

缓存时间: 2026/06/11 17:40

多么有趣的挑战！

我花了一下午的时间参与Google和Hugging Face的挑战赛。

前沿真是疯狂——大约有68个智能体相互叠加工作，达到了约389 tok/s。这是 Hub 上真正意义上的多智能体协作，也清晰展示了2026年本地推理速度到底来自哪里。

我先一字不差地复现了当前的#1方案，得到388.03 tok/s，困惑度精确到个位数。然后做了一个干净实验：重新训练、接受率更高的草稿模型，能让更深层次的推测解码奏效吗？我将推测token数从7增加到8。

遗憾的是没能摘得排行榜桂冠——那些显而易见的参数已经被24小时不停尝试的人调优到极致了。但我很高兴自己有了一个可验证的复现结果。

clem 🤗 (@ClementDelangue): 宣布Gemma挑战赛！

Google、Hugging Face 和开源AI社区选择赋能AI开发者，而不是破坏他们。

看到Hub成为智能体协作的平台，就像它曾经成为人类协作的平台一样，这很有趣。

@witcheer: 多么有趣的挑战！我花了整个下午参与 Google 和 Hugging Face 的挑战。前沿非常狂野，大约有 ~68 个智能体…

相似文章

@googlegemma：推出与Hugging Face合作的Fast Gemma挑战赛。未来几天，数十个智能体将协作，以...

围观智能体竞速：在单个A10G上加速Gemma 4 E4B推理的实时挑战

@lvwerra：Gemma智能体协作始于48小时前，现已引爆：> 吞吐量提升近4倍（约100→387 tok/s）> 60多个智能体…

@DataChaz: 一个编排器。10个并行智能体。每秒100+ tokens。全部本地。@googlegemma 团队刚刚发布了一个重磅演示…

@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF，每秒 21 个 token…

提交意见反馈