Cactus Hybrid Router:通过将15-55%的任务路由到Gemini,其余在本地运行,Gemma4-2B可与Gemini-3.1-Flash-Lite匹敌。
摘要
Cactus Hybrid Router是一个65k参数的模型,它动态地在本地边缘模型(如Gemma4-2B)和前沿云模型(如Gemini-3.1-Flash-Lite)之间路由任务,以优化成本和性能,具有可调节的边缘-云比例,并支持文本、视觉和音频提示。
上周,我们发布了“Simple Attention Network”,并训练了Needle——一个2600万参数的函数调用模型,其性能超过自身规模10-25倍的模型。一些LocalLlama的Reddit用户询问我们能否制作一个路由模型。现在我们构建了“Cactus Hybrid Router”,这是一个65k参数的模型,可实时解码决定是使用边缘模型完成任务还是路由到前沿云。https://preview.redd.it/jm23ff7r1k3h1.png?width=1453&format=png&auto=webp&s=2091ec952216beb2d987d536b08df3aec58fec94 1. 鲁棒的路由器性能,即使你对边缘模型进行量化。不过这是Cactus Quants,我们的4位均匀量化自然接近fp16。https://preview.redd.it/4ri8bkuw1k3h1.png?width=2048&format=png&auto=webp&s=415e8165d5421d509634c165a3fb9feb2f83c209 2. 可调节的边缘-云比例以优化资源分配,因为为什么要把“法国首都是哪里?”这样的问题通过昂贵的基础设施上的万亿参数前沿模型来运行?https://preview.redd.it/dwtg7noc2k3h1.png?width=904&format=png&auto=webp&s=0ecde47c439e7a29af3dca441a9098c98ca38e29 3. 同一个64k路由器可处理纯文本、视觉和音频提示。我们非常希望听到您的想法,还有什么我们没想到的?实时AI和编码需要大量的推理,因此给云基础设施带来了很大压力。为什么不在本地运行基础任务,只在需要时升级到云,作为迈向边缘的一步呢?[https://github.com/cactus-compute/cactus](https://github.com/cactus-compute/cactus)
相似文章
Gemini 3.5:前沿智能与行动力
Google 发布 Gemini 3.5,一个全新 AI 模型系列,聚焦智能体工作流与编程,首发 3.5 Flash 以高速提供前沿性能。
@swyx: 每当模型路由器公司发布数据时,都值得浏览。这里我们了解到,Gemini 在教育和个人助理领域领先,其次是…
来自 Vercel Gateway 的模型路由器数据揭示:Gemini 在教育和个人助手领域领先,Ant(很可能指 Anthropic)在 Vibecoding 和 Koding 领域领先,而 OpenAI 在招聘外联领域领先。
Gemini 3.5 Flash 在(Zapier 的)Automation Bench 上排名第一,以更低的价格击败了所有其他前沿模型
谷歌的 Gemini 3.5 Flash 模型在 Zapier 的 Automation Bench 上排名第一,以显著更低的成本超越了其他前沿模型。
Gemini 3 Flash: 为速度而生的前沿智能
Google 发布了 Gemini 3 Flash,这是一款快速、高性价比的 AI 模型,将 Pro 级别的推理能力与 Flash 级别的速度相结合,适用于编程、复杂分析和智能体工作流等任务。
Gemini 3.1 Flash-Lite
Google发布Gemini 3.1 Flash-Lite,这是Gemini模型的轻量级版本,专为高容量AI流水线设计。