@witcheer: 多么有趣的挑战!我花了整个下午参与 Google 和 Hugging Face 的挑战。前沿非常狂野,大约有 ~68 个智能体…
摘要
一位参与者复现了 Google 和 Hugging Face Gemma 挑战中表现最佳的智能体堆栈,达到 388 tok/s 并测试了更高接受率的推测解码。
查看缓存全文
缓存时间: 2026/06/11 17:40
多么有趣的挑战!
我花了一下午的时间参与Google和Hugging Face的挑战赛。
前沿真是疯狂——大约有68个智能体相互叠加工作,达到了约389 tok/s。这是 Hub 上真正意义上的多智能体协作,也清晰展示了2026年本地推理速度到底来自哪里。
我先一字不差地复现了当前的#1方案,得到388.03 tok/s,困惑度精确到个位数。然后做了一个干净实验:重新训练、接受率更高的草稿模型,能让更深层次的推测解码奏效吗?我将推测token数从7增加到8。
遗憾的是没能摘得排行榜桂冠——那些显而易见的参数已经被24小时不停尝试的人调优到极致了。但我很高兴自己有了一个可验证的复现结果。
clem 🤗 (@ClementDelangue): 宣布Gemma挑战赛!
Google、Hugging Face 和开源AI社区选择赋能AI开发者,而不是破坏他们。
看到Hub成为智能体协作的平台,就像它曾经成为人类协作的平台一样,这很有趣。
相似文章
@googlegemma:推出与Hugging Face合作的Fast Gemma挑战赛。未来几天,数十个智能体将协作,以...
谷歌与Hugging Face联合推出Fast Gemma挑战赛,数十个智能体将合作加速Gemma 4 E4B模型。
围观智能体竞速:在单个A10G上加速Gemma 4 E4B推理的实时挑战
一项实时挑战正在进行,旨在在单个A10G GPU上加速Gemma 4 E4B模型的推理,Hugging Face上的仪表板跟踪智能体的提交情况。
@lvwerra:Gemma智能体协作始于48小时前,现已引爆:> 吞吐量提升近4倍(约100→387 tok/s)> 60多个智能体…
使用Gemma模型的多智能体协作取得了显著的吞吐量提升,并展现出涌现性社会行为,如组成联盟、发布道德声明、协调资源,在48小时内吸引了超过60个智能体和250份提交。
@DataChaz: 一个编排器。10个并行智能体。每秒100+ tokens。全部本地。@googlegemma 团队刚刚发布了一个重磅演示…
Google Gemma 团队为 Gemma 4 26B 发布了一个演示,可在本地以每秒100+ tokens 的速度运行10个并行智能体,能够执行诸如编写SVG画廊代码和并行翻译等任务,全部免费且开源。
@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF,每秒 21 个 token…
Google 新推出的 Gemma 4 12B 是一个纯解码器 transformer,采用无编码器的多模态输入,在达到强大基准性能的同时,尺寸足够小,可以在廉价 GPU 上本地运行。它采用 Apache 2.0 许可证发布。