@sitinme: 26M 参数的模型能做 Function Call，还比 Qwen-0.6B 强？这个团队反其道而行的思路太野了！现在大模型的参数量越来越大，但有一个问题一直没有被认真对待过：调用一个工具真的需要几百亿参数吗？想想看，当你说“查一下今…

X AI KOLs Timeline 2026/05/26 01:48 模型

function-call small-model distillation 26m-parameters needle cactus

摘要

Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle，专门用于 Function Call，性能超过 Qwen-0.6B，展示了小模型在工具调用场景下的潜力。

26M 参数的模型能做 Function Call，还比 Qwen-0.6B 强？这个团队反其道而行的思路太野了！现在大模型的参数量越来越大，但有一个问题一直没有被认真对待过：调用一个工具真的需要几百亿参数吗？想想看，当你说“查一下今天北京的天气”，模型需要做的事情其实很简单：把你的话匹配到 get_weather 这个函数，把“北京”填到 location 参数里，这件事需要 GPT-5 级别的智能吗？显然不需要，Cactus 团队的思路就是这么直接：既然 Function Call 本质上是一个“查询→工具匹配”的任务，那就可以用一个超小的专用模型来做。他们把 Gemini 3.1 蒸馏成了一个只有 26M 参数的模型——叫 Needle。

查看原文

查看缓存全文

缓存时间: 2026/05/26 11:07

26M 参数的模型能做 Function Call，还比 Qwen-0.6B 强？这个团队反其道而行的思路太野了！

现在大模型的参数量越来越大，但有一个问题一直没有被认真对待过：调用一个工具真的需要几百亿参数吗？

想想看，当你说“查一下今天北京的天气”，模型需要做的事情其实很简单：把你的话匹配到 get_weather 这个函数，把“北京”填到 location 参数里，这件事需要 GPT-5 级别的智能吗？

显然不需要，Cactus 团队的思路就是这么直接：既然 Function Call 本质上是一个“查询→工具匹配”的任务，那就可以用一个超小的专用模型来做。

他们把 Gemini 3.1 蒸馏成了一个只有 26M 参数的模型——叫 Needle。

相似文章

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

X AI KOLs Timeline

用户测试了Qwen3.7-Max，认为其在前端、算力和Agent能力上比肩Claude 4.6和Gemini 3.1 Pro等顶尖模型，推理能力显著提升，且迭代速度月更，已成为国产第一梯队。

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，通过使用小众 Zig 语言实现并优化模型推理，证明了新模型的泛化能力。经过 4,000 多次工具调用，超过 12 小时的不间断运行，K2.6 模型共迭代了 14 …

X AI KOLs Timeline

K2.6在Mac本地成功部署Qwen3.5-0.8B模型，使用Zig语言实现推理优化，经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s，比LM Studio快20%。

@Xudong07452910: Hacker News 上有一篇评论区火了的文章：Qwen 3.6 27B 是本地开发的理想选择。核心发现是：密集参数模型、原生支持 256k 上下文，在 MacBook Max M5 上跑 Q8_0 量化版能达到 30 tokens/…

X AI KOLs Timeline

Qwen 3.6 27B is a dense 27B model that achieves impressive performance on local hardware with 256k context, running at 30 tokens/s on MacBook Max M5 and 50 tokens/s on RTX 5090, and is considered by some as the first local model with true general intelligence.

Needle：我们将 Gemini 的函数调用能力蒸馏进了一个 2600 万参数的模型

Reddit r/LocalLLaMA

Cactus-Compute 发布了 Needle，这是一个拥有 2600 万参数的开源模型，从 Gemini 蒸馏而来。它采用一种不含 MLP 的新型“简单注意力网络”架构，旨在实现高效的端侧函数调用。

@zhixianio: 试完了，感觉还挺大跌眼镜的，不知道是不是我打开的方式不对，欢迎大家给出反例。接下来是我测的结果：在 M5 Max 上，拿这个社区微调版 gemma-4-12B-coder （llama.cpp）对打我日常在用的 Qwen3.6-35B-…

X AI KOLs Timeline

用户测试了社区微调版 gemma-4-12B-coder 与 Qwen3.6-35B-A3B MoE 在三个编程任务上的表现，发现 gemma 在复杂有状态程序上表现不佳，而 Qwen 35B 依然稳健。

相似文章

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max，说几点真实感受。 昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，通过使用小众 Zig 语言实现并优化模型推理，证明了新模型的泛化能力。经过 4,000 多次工具调用，超过 12 小时的不间断运行，K2.6 模型共迭代了 14 …

@Xudong07452910: Hacker News 上有一篇评论区火了的文章：Qwen 3.6 27B 是本地开发的理想选择。 核心发现是：密集参数模型、原生支持 256k 上下文，在 MacBook Max M5 上跑 Q8_0 量化版能达到 30 tokens/…

Needle：我们将 Gemini 的函数调用能力蒸馏进了一个 2600 万参数的模型

@zhixianio: 试完了，感觉还挺大跌眼镜的，不知道是不是我打开的方式不对，欢迎大家给出反例。接下来是我测的结果： 在 M5 Max 上，拿这个社区微调版 gemma-4-12B-coder （llama.cpp）对打我日常在用的 Qwen3.6-35B-…

提交意见反馈

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

@Xudong07452910: Hacker News 上有一篇评论区火了的文章：Qwen 3.6 27B 是本地开发的理想选择。核心发现是：密集参数模型、原生支持 256k 上下文，在 MacBook Max M5 上跑 Q8_0 量化版能达到 30 tokens/…

@zhixianio: 试完了，感觉还挺大跌眼镜的，不知道是不是我打开的方式不对，欢迎大家给出反例。接下来是我测的结果：在 M5 Max 上，拿这个社区微调版 gemma-4-12B-coder （llama.cpp）对打我日常在用的 Qwen3.6-35B-…