@sitinme: 26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了! 现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗? 想想看,当你说“查一下今…
摘要
Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle,专门用于 Function Call,性能超过 Qwen-0.6B,展示了小模型在工具调用场景下的潜力。
查看缓存全文
缓存时间: 2026/05/26 11:07
26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了!
现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗?
想想看,当你说“查一下今天北京的天气”,模型需要做的事情其实很简单:把你的话匹配到 get_weather 这个函数,把“北京”填到 location 参数里,这件事需要 GPT-5 级别的智能吗?
显然不需要,Cactus 团队的思路就是这么直接:既然 Function Call 本质上是一个“查询→工具匹配”的任务,那就可以用一个超小的专用模型来做。
他们把 Gemini 3.1 蒸馏成了一个只有 26M 参数的模型——叫 Needle。
相似文章
@RookieRicardoR: 国产模型再次突破,比肩 Claude 4.6,Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max,说几点真实感受。 昨晚 API 上线第一时间就充了值,选了三个题目(见视频)来测试 Qwen3.7-Max 的前端能…
用户测试了Qwen3.7-Max,认为其在前端、算力和Agent能力上比肩Claude 4.6和Gemini 3.1 Pro等顶尖模型,推理能力显著提升,且迭代速度月更,已成为国产第一梯队。
@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型,通过使用小众 Zig 语言实现并优化模型推理,证明了新模型的泛化能力。经过 4,000 多次工具调用,超过 12 小时的不间断运行,K2.6 模型共迭代了 14 …
K2.6在Mac本地成功部署Qwen3.5-0.8B模型,使用Zig语言实现推理优化,经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s,比LM Studio快20%。
Needle:我们将 Gemini 的函数调用能力蒸馏进了一个 2600 万参数的模型
Cactus-Compute 发布了 Needle,这是一个拥有 2600 万参数的开源模型,从 Gemini 蒸馏而来。它采用一种不含 MLP 的新型“简单注意力网络”架构,旨在实现高效的端侧函数调用。
@wquguru: https://x.com/wquguru/status/2057852569054278045
对 pi-goal 工具进行源码解析和多模型实测,发现 DeepSeek V4 Pro 在长程任务上比 Gemini 3.5 Flash 便宜 31 倍且质量更高,且更高思考模式反而导致幻觉增加。
@zhixianio: 这两天新机器到了之后,我开始了「苦行僧」式的强迫自己使用本地模型来完成常见任务的修行 本以为会非常痛苦,没想到无论是速度还是质量都大大超出我的预期: 模型: Qwen3.6-35B-A3B-oQ6-fp16-mtp 运行:oMLX,开 N…
作者在本地新机器上使用Qwen3.6-35B-A3B模型和oMLX工具进行日常任务,发现速度和效果远超预期,甚至在PA和Coding场景下优于远程LLM,体现了端侧AI能力的显著提升。