Cactus Hybrid Router：通过将15-55%的任务路由到Gemini，其余在本地运行，Gemma4-2B可与Gemini-3.1-Flash-Lite匹敌。

Reddit r/LocalLLaMA 2026/05/26 22:20 工具

hybrid-router edge-computing routing efficiency open-source gemini gemma

摘要

Cactus Hybrid Router是一个65k参数的模型，它动态地在本地边缘模型（如Gemma4-2B）和前沿云模型（如Gemini-3.1-Flash-Lite）之间路由任务，以优化成本和性能，具有可调节的边缘-云比例，并支持文本、视觉和音频提示。

上周，我们发布了“Simple Attention Network”，并训练了Needle——一个2600万参数的函数调用模型，其性能超过自身规模10-25倍的模型。一些LocalLlama的Reddit用户询问我们能否制作一个路由模型。现在我们构建了“Cactus Hybrid Router”，这是一个65k参数的模型，可实时解码决定是使用边缘模型完成任务还是路由到前沿云。https://preview.redd.it/jm23ff7r1k3h1.png?width=1453&format=png&auto=webp&s=2091ec952216beb2d987d536b08df3aec58fec94 1. 鲁棒的路由器性能，即使你对边缘模型进行量化。不过这是Cactus Quants，我们的4位均匀量化自然接近fp16。https://preview.redd.it/4ri8bkuw1k3h1.png?width=2048&format=png&auto=webp&s=415e8165d5421d509634c165a3fb9feb2f83c209 2. 可调节的边缘-云比例以优化资源分配，因为为什么要把“法国首都是哪里？”这样的问题通过昂贵的基础设施上的万亿参数前沿模型来运行？https://preview.redd.it/dwtg7noc2k3h1.png?width=904&format=png&auto=webp&s=0ecde47c439e7a29af3dca441a9098c98ca38e29 3. 同一个64k路由器可处理纯文本、视觉和音频提示。我们非常希望听到您的想法，还有什么我们没想到的？实时AI和编码需要大量的推理，因此给云基础设施带来了很大压力。为什么不在本地运行基础任务，只在需要时升级到云，作为迈向边缘的一步呢？[https://github.com/cactus-compute/cactus](https://github.com/cactus-compute/cactus)

查看原文

Cactus Hybrid Router：通过将15-55%的任务路由到Gemini，其余在本地运行，Gemma4-2B可与Gemini-3.1-Flash-Lite匹敌。

相似文章

Gemini 3.5：前沿智能与行动力

@swyx: 每当模型路由器公司发布数据时，都值得浏览。这里我们了解到，Gemini 在教育和个人助理领域领先，其次是…

Gemini 3.5 Flash 在（Zapier 的）Automation Bench 上排名第一，以更低的价格击败了所有其他前沿模型

Gemini 3 Flash: 为速度而生的前沿智能

Gemini 3.1 Flash-Lite

提交意见反馈